@ 以 云 计算 与 大 数据 融合 的 视角 阐述 了 云 计 算 环境 下 Spark 大 数据 处 理 与 机 








相应 的 算法 实现 Ah 
。 结合 经 典 案例 ,详解 云 计算 环境 下 Spark 大 数据 处 理 生态 图， 包括 系统 A 

结构 、 大 数据 存储 、 批 处 理 、 流 计算 、 交 互 式 数据 分 析 、 并 行 机 器 学 习 

架构 与 算法 等 技术 


掌握 云 计算 环境 下 Spark 大 数据 处 理 的 架构 搭建 和 算法 实现 过 程 等 关键 
技术 ， 扩 展 大 数据 从 业 人 员 的 理论 与 实践 能 力 
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麦肯锡 全 球 研究 所 给 出 的 大 数据 定义 是 ， 一 种 规模 大 到 在 获取 、 存 储 、 管 理 、 分 析 方 面 
大 大 超出 了 传统 数据 库 软 件 工 具 能 力 范围 的 数据 集合 ， 具 有 海量 的 数据 规模 、 快 速 的 数据 流 
转 、 多 样 的 数据 类 型 和 价值 密度 低 四 大 特征 。 

大 数据 技术 的 战略 意义 不 在 于 获取 了 庞大 的 数据 ， 而 在 于 对 这 些 特定 领域 的 数据 进行 处 
理 分 析 。 换 而 言 之 ， 关 键 是 把 这 些 巨 大 的 数据 实现 鳃 利 式 的 加 工 ， 提 供 效率 ， 具 有 增值 的 处 
理 模式 。 


本 书 背景 


大 数据 像 飓 风 一 样 席 卷 而 来 ， 改 变 着 信息 时 代 的 数据 处 理 方式 。 产 业经 营 方式 经 历 着 革 
命 性 的 变革 ， 大 数据 与 云 计算 的 融合 改变 着 数据 处 理 流 程 和 模式 ， 对 互联 网 、 信 息 经 济 发 展 
提出 了 新 的 方向 和 扩展 空间 。 应 用 驱动 技术 发 展 产 生 的 数据 越 多 ， 可 供 分 析 的 数据 越 多 ， 越 
能 推动 研发 和 出 现 更 先进 的 用 来 分 析 数 据 的 工具 和 方法 。 

国家 对 互联 网 、 信 息 经 济 的 发 展 提出 了 方向 ， 明 确 说 要 拓展 发 展 新 的 空间 ， 实 施 网 络 强 
国 战略 ， 实 施 “ 互 联网 +” 行 动 计划 ， 发 展 分 享 经 济 ， 实 施 国家 大 数据 战略 ， 将 网 络 强国 战略 
作为 新 的 一 个 创新 的 重要 支撑 。 





本 书 内 容 


本 书 围绕 互联 网 重大 的 技术 革命 : 云 计 算 、 大 数据 〈 未 来 世界 新 一 代 信息 技术 的 关键 和 
核心 ) 进行 阐述 。 云 计算 环境 下 大 数据 处 理 构建 是 国民 经 济 发 展 的 信息 基础 设施 ， 发 展 自主 
的 云 计算 核 心 技术 ， 拥 有 自己 的 信息 基础 设施 ， 当 前 正 处 于 重要 的 发 展 机 遇 期 。 本 书 重 点 在 
大 数据 与 云 计算 的 融合 ， 给 出 了 大 数据 与 云 计 算 的 一 些 基 本 概念 的 同时 ， 以 Spark 为 开发 工 
具 ， 全 面 讲述 云 环 境 下 的 大 数据 技术 部 署 与 典型 案例 算法 实现 ， 最 后 介绍 了 国内 经 典 Spark 
大 数据 与 云 计 算 融 合 的 架构 与 算法 。 


本 书目 的 


3 年 前 就 开始 着 手 准 备 写 关 于 大 数据 和 云 计 算 融合 的 相关 技术 方面 的 书 ， 由 于 书 中 的 算 
法 需要 模拟 验证 ， 所 以 交 稿 拖延 了 很 长 时 间 。 目 前 这 方面 的 书 还 不 系统 ， 还 没有 全 面 融 合 两 





云 计算 环境 下 Spark 大 数据 处 理 技术 与 实践 


者 技术 的 书 出 现 ， 也 是 笔者 想 写 这 本 书 的 初衷 。 随 着 岁月 侵蚀 ， 白 发 杂 生 ， 大 数据 技术 发 展 
也 日 新 月 异 。 

得 益 于 国内 IT 企业 的 后 发 制 人 战略 ， 目 前 国内 的 IT 公司 在 大 数据 应 用 方面 已 经 迎头 赶 
上 了 国际 巨头 ， 在 云 大 数据 技术 方面 的 研发 和 技术 突破 经 历 了 大 幅 的 跨越 发 展 。 当 今世 界 迎 
来 大 数据 时 代 ， 工 欲 善 其 事 ， 必 先 利 其 器 ， 在 大 数据 和 云 计算 的 规则 制定 和 新 技术 研发 上 还 
需 努力 ， 这 方面 还 需要 加 大 研发 与 突破 。 
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芋 ] 一 


第 1 章 
< 大 数据 处 理 概 述 > 


大 数据 是 当今 一 个 最 热门 的 话题 ， 我 们 每 一 个 人 都 无 法 置身 其 外 。 就 像 几 年 前 出 现 的 云 
计算 一 样 ， 大 数据 已 经 引起 市 场 的 广泛 关注 ， 同 样 ， 企 业 迫 切 需要 对 大 数据 下 定义 。 大 数据 
缺少 一 个 标准 且 普及 性 的 定义 ， 至 少 不 像 NIST 对 云 的 定义 那样 ， 能 被 人 们 广泛 接受 。 调 研 
公司 IDC 的 定义 可 能 比较 容易 被 人 们 所 接受 。 它 对 大 数据 的 定义 是 : 一 种 新 一 代 的 技术 和 架 
构 ， 具 备 高 效率 的 捕捉 、 发 现 和 分 析 能 力 ， 能 够 经 济 地 从 类 型 繁杂 、 数 量 庞大 的 数据 中 挖掘 
出 价值 。 


大 数据 处 理 技术 概述 


近 几 年 ， 大 数据 迅速 发 展 成 为 科技 界 和 企业 界 甚至 世界 各 国政 府 关 注 的 热点 。 
《Nature》 和 《Science》 等 相继 出 版 专刊 专门 探讨 大 数据 带 来 的 机 遇 和 挑战 。 著 名 管理 咨询 
公司 麦肯锡 称 : “数据 已 经 渗透 到 当今 每 一 个 行业 和 业务 职能 领域 ， 成 为 重要 的 生产 因素 。 
人 们 对 于 大 数据 的 挖掘 和 运用 ， 预 示 着 新 一 波 生 产 力 增 长 和 消费 芥 余 浪潮 的 到 来 ”。 美 国政 
府 认为 大 数据 是 “未 来 的 新 石油 ， 一 个 国家 拥有 数据 的 规模 和 运用 数据 的 能 力 将 成 为 综合 国 
力 的 重要 组 成 部 分 ， 对 数据 的 占有 和 控制 将 成 为 国家 间 和 企业 间 新 的 争夺 焦点 。 大 数据 已 成 
为 社会 各 界 关注 的 新 焦点 ，“ 大 数据 时 代 ” 已 然 来 临门 。 

“大 数据 ”是 一 个 体 量 特别 大 、 数 据 类 别 特别 大 的 数据 集 ， 并 且 这 样 的 数据 集 无 法 用 传 
统 数 据 库 工 具 对 其 内 容 进行 抓 取 、 管 理 和 处 理 。 

百度 知道 大 数据 〈bigdata) 的 定义 ， 或 称 巨 量 资 料 ， 指 的 是 所 涉及 的 资料 量规 模 巨 大 到 
无 法 透 过 目前 主流 软件 工具 ， 在 合理 时 间 内 达到 揪 取 、 管 理 、 处 理 ， 并 整理 成 为 帮助 企业 经 
营 决 策 更 积极 目的 的 资讯 。 大 数据 的 5V 特点 : Volume、Velocity、Variety、 Veracity、 
Value。 








1.1.1 什么 是 大 数据 

“大 数据 ”是 需要 新 处 理 模式 才能 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优化 能 力 的 海 
量 、 高 增长 率 和 多 样 化 的 信息 资产 。 从 数据 的 类 别 上 看 ，“ 大 数据 ” 指 的 是 无 法 使 用 传统 流 
程 或 工具 处 理 或 分 析 的 信息 。 它 定义 了 那些 超出 正常 处 理 范围 和 大 小 、 人 迫使 用 户 采用 非 传统 
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处 理 方法 的 数据 集 。 亚 马 逊 网 络 服务 (AWS) 大 数据 科学 家 JohnRauser 提 到 一 个 简单 的 定 
义 : 大 数据 就 是 任何 超过 了 一 台 计 算 机 处 理 能 力 的 庞大 数据 量 。 其 研发 小 组 对 大 数据 的 定 
义 : “大 数据 是 最 大 的 、 最 时 此 的 技术 ， 当 这 种 现象 出 现时 ， 定 义 就 变 得 很 混乱 。” 学 者 
Kelly 说 : “大 数据 是 可 能 不 包含 所 有 的 信息 ， 但 我 觉得 大 部 分 是 正确 的 。 对 大 数据 的 一 部 分 
认 知 在 于 ， 它 是 如 此 之 大 ， 分 析 它 需要 多 个 工作 负载 ， 这 是 AWS 的 定义 。 当 你 的 技术 达到 
极限 时 ， 也 就 是 数据 的 极限 ”。 大 数据 不 是 关于 如 何 定 义 ， 最 重要 的 是 如 何 使 用 。 最 大 的 挑 
战 在 于 哪些 技术 能 更 好 地 使 用 数据 以 及 大 数据 的 应 用 情况 如 何 。 这 与 传统 的 数据 库 相 比 ， 开 
源 的 大 数据 分 析 工 具 如 Hadoop 的 崛起 ， 这 些 非 结构 化 的 数据 服务 的 价值 在 哪里 。 

相 较 于 传统 的 数据 ， 人 们 将 大 数据 的 特征 总 结 为 5 个 V， 即 体 量 大 〈Volume) 、 速 度 快 
(Velocity) 、 模 态 多 (Variety) 、 难 辨识 (Veracity) 和 价值 大 (Value) 。“ 大 数据 ”首先 
是 指数 据 体 量 (volumes) 大 ， 指 代 大 型 数据 集 ， 一 般 在 10TB 规模 左右 ， 但 在 实际 应 用 中 ， 很 
多 企业 用 户 把 多 个 数据 集 放 在 一 起 ， 已 经 形成 了 PB 级 的 数据 量 ;， 其 次 是 指数 据 类 别 
(Variety) 多 ， 数 据 来 自 多 种 数据 源 ， 数 据 种 类 和 格式 日 渐 丰 富 ， 已 冲破 了 以 前 所 限定 的 结 
构 化 数据 范畴 ， 襄 括 了 半 结 构 化 和 非 结构 化 数据 ; 接着 是 数据 处 理 速度 (Velocity) 快 ， 在 数 
据 量 非常 庞大 的 情况 下 ， 也 能 够 做 到 数据 的 实时 处 理 ; 还 有 一 个 特点 是 指数 据 真实 性 
(Veracity) 高 ， 随 着 社交 数据 、 企 业内 容 、 交 易 与 应 用 数据 等 新 数据 源 的 兴趣 ， 传 统 数据 源 
的 局 限 被 打破 ， 企 业 愈 发 需要 有 效 的 信息 之 力 以 确保 其 真实 性 及 安全 性 。 但 大 数据 的 主要 难 
点 并 不 在 于 数据 量 大 ， 因 为 通过 对 计算 机 系统 的 扩展 可 以 在 一 定 程度 上 缓解 数据 量 大 带 来 的 
挑战 。 其 实 ， 大 数据 真正 难以 对 付 的 挑战 来 自 于 数据 类 型 多 样 (Variety) 、 要 求 及 时 响应 
(Velocity) 和 数据 的 不 确定 性 〈Veracity ) 。 因 为 数据 类 型 多 样 使 得 一 个 应 用 往往 既 要 处 理 
结构 化 数据 ， 同 时 还 要 处 理 文 本 、 视 频 、 语 音 等 非 结 构 化 数据 ， 这 对 现 有 数据 库 系统 来 说 难 
以 应 付 ; 在 快速 响应 方面 ， 在 许多 应 用 中 时 间 就 是 利益 ; 在 不 确定 性 方面 ， 数 据 真 伪 难 辩 是 
大 数据 应 用 的 最 大 挑战 。 追 求 高 数据 质量 是 对 大 数据 的 一 项 重要 要 求 ， 最 好 的 数据 清理 方法 
也 难以 消除 某 些 数据 固有 的 不 可 预测 性 。 





1.1.2 ”大 数据 来 源 

当今 世界 ， 大 数据 无 处 不 在 ， 它 影响 到 了 我 们 的 工作 、 生 活 和 学 习 ， 并 将 继续 施加 更 大 
的 影响 。 大 数据 用 于 描述 这 样 的 数据 组 ， 其 规模 超出 了 日 常 软件 在 可 容忍 期 限 内 获取 、 管 理 
和 加 工 数据 的 能 力 。 一 些 网 络 技术 领先 的 公司 持续 地 投资 于 昂贵 的 大 数据 技术 ， 成 效 显 著 。 
大 数据 使 得 创新 型 公司 变 成 了 经 营 新 方法 的 率先 接受 者 ， 经 营 更 为 成 功 。 通 过 大 数据 的 分 析 
挖掘 ， 公 司 可 以 发 现 新 的 经 营 模式 ， 对 工艺 加 以 改进 。 例 如 ， 在 获悉 消费 者 行为 后 ， 可 以 将 
发 现 用 于 某 些 改 变 ， 如 降低 成 本 或 增加 销售 ， 就 会 产生 价值 。 在 任意 大 的 数据 组 中 应 用 统计 
方法 可 以 发 现 有 用 信息 ， 将 这 些 信 息 商 业 化 即 可 获 益 。 

当今 大 数据 的 来 源 除了 专业 研究 机 构 产 生 大 量 的 数据 外 (CERN 的 离子 对 撞 机 每 秒 运行 
产生 的 数据 高 达 40TB ) ， 相 对 于 企业 ， 大 数据 的 数据 来 源 主 要 有 两 个 部 分 : 一 部 分 来 自 于 企 
业内 部 自身 信息 系统 中 产生 的 运营 数据 ， 这 些 数 据 大 多 是 标准 化 、 结 构 化 的 ;传统 的 商业 智 
能 系统 中 所 用 到 的 数据 基本 上 属于 这 部 分 ; 另 一 部 分 则 来 自 于 外 部 ， 包 括 广泛 存在 于 社交 网 
络 、 物 联网 、 电 子 商 务 等 之 中 的 非 结 构 化 数据 。 


与 企业 经 营 相 关 的 大 数据 可 以 划分 为 4 个 来 源 : 
@。 越 来 越 多 的 机 器 配备 了 连续 测量 和 报告 运行 情况 的 装置 。 几 年 前 ， 跟 踪 适 测 发 动机 
运行 仅 限于 价值 数 百 万 美元 的 航天 飞机 。 现 在 ， 汽 车 生产 商 在 车 辆 中 配置 了 监视 
器 ， 连 续 提 供 车 辆 机 械 系统 整体 运行 情况 。 一 旦 数据 可 得 ， 公 司 将 千方百计 从 中 渔 
利 。 这 些 机 器 传 感 数据 属于 大 数据 的 范围 。 
@ 计算机 产生 的 数据 可 能 包含 着 关于 因特网 和 其 他 使 用 者 行动 和 行为 的 有 趣 信息 ， 从 
而 提供 了 对 他 们 的 愿望 和 需求 潜在 的 有 用 认识 。 
@ ”使 用 者 自身 产生 的 数据 /信息 。 人 们 通过 电邮 、 短 信 、 微 博 等 产生 的 文本 信息 。 
@ 至今 最 大 的 数据 是 音频 、 视 频 和 符号 数据 。 这些 数据 结构 松散 、 数 量 巨大 ， 很 难 从 
中 挖 据 有 意义 的 结论 和 有 用 的 信息 。 
由 于 来 源 、 类 型 不 同 的 数据 透视 的 是 同一 个 事物 的 不 同方 面 ， 以 消费 客户 为 例 ， 消 费 记 
录 信 息 能 透视 客户 的 消费 能 力 、 消 费 频 率 、 消 费 兴 趣 点 等 ， 渠 道 信 息 能 透视 客户 的 渠道 仿 
好 ， 以 及 消费 支付 信息 与 支付 渠道 的 关联 情况 等 。 
大 型 以 Internet 为 核心 的 公司 ， 如 Amazon、Google、eBay、Twitter 和 Facebook 正 使 用 
后 三 类 海量 信息 认识 消费 行为 、 预 测 特定 需求 和 整体 趋势 。 第 一 类 数据 可 能 产生 较 少 的 业 
务 ， 但 可 以 推动 某 些 经 营 模式 实质 变革 。 例 如 ， 汽 车 传 感 数据 用 于 评价 司机 行为 会 推动 汽车 
保险 业 的 深刻 变革 。 因 此 ， 大 数据 分 析 意 味 着 企业 能 够 从 不 同 来 源 的 数据 中 获得 新 的 
洞察 力 ， 并 将 其 与 企业 业务 体系 的 各 个 细节 相 结 合 ， 以 便 助力 企业 在 市 场 拓展 和 产品 
创新 上 突破 。 


1.1.3 ”大 数据 应 用 价值 

“大 数据 ”的 概念 远 不 止 大 量 的 数据 (TB) 和 处 理 大 量 数据 的 技术 ， 而 是 涵盖 了 人 们 在 
大 规模 数据 的 基础 上 可 以 做 的 事情 ， 而 这 些 事情 在 小 规模 数据 的 基础 上 是 无 法 实现 的 。 换 句 
话说 ， 大 数据 让 我 们 以 一 种 前 所 未 有 的 方式 ， 通 过 对 海量 数据 进行 分 析 ， 获 得 有 巨大 价值 的 
产品 和 服务 ， 或 深刻 的 洞 见 ， 最 终 形成 变革 之 力 。 

根据 麦肯锡 全 球 研究 所 的 分 析 ， 利 用 大 数据 在 各 行 各 业 能 产生 显著 的 财务 价值 。 美 国 健 
康 护理 利用 大 数据 每 年 产 出 3000 亿美 元 ， 年 劳动 生产 率 提高 0.7%; 欧洲 公共 管理 每 年 价值 
2500 亿 欧 元 ， 年 劳动 生产 率 提高 0.5%; 全 球 个 人 定位 数据 服务 提供 商 收益 1000 多 亿美 
元 ， 为 终端 用 户 提供 高 达 7000 亿美 元 的 价值 ; 美国 零售 业 净 收益 可 增长 6%， 年 劳动 生产 率 
提高 0.5~1%; 制造 业 可 节省 50% 的 产品 开发 和 装配 成 本 ， 营 运 资本 下 降 7%。 

大 数据 改变 了 所 有 行业 全 部 公司 的 经 营 方式 。 从 对 市 场 的 理解 到 如 何 挖掘 经 营 信息 ， 大 
数据 能 洞察 每 项 转变 。 一 个 致力 于 收集 和 分 析 大 数据 的 行业 业已 形成 ， 对 现 有 公司 产生 了 深 
刻 影 响 。 据 有 关 调查 ， 有 10% 的 公司 认为 在 过 去 的 5 年 中 ， 大 数据 彻底 改变 了 它们 的 经 营 方 
式 。46% 的 公司 认同 大 数据 是 其 决策 的 一 项 重要 支持 因素 。 

大 数据 应 用 在 经 历 了 喊 口 号 、 布 局 深耕 之 后 ， 开 始 显现 出 巨大 的 商业 价值 ， 触 角 延 伸 到 
国防 、 市 政 、 人 金融、 教育、 医疗、 体育、 汽车、 影视 、 智 能 硬件 、 社 交 网 络 等 各 个 层面 。 据 
IDC 数据 显示 ， 目 前 大 数据 形成 的 市 场 规模 达到 约 51 亿美 元 ， 到 2017 年 ， 这 一 数字 将 会 增 
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长 到 530 

近日 
慧 峰 会 ， 
与 健康 、 


亿美 元 。 

， 国 内 大 数据 精准 营销 平台 亿 玛 公司 联合 中 关 村 大 数据 产业 联盟 举办 了 2015 亿 玛 智 
智能 穿戴 设备 、 智 能 汽车 、 互 联网 金融 、 大 数据 精准 营销 、 智 能 家 居 、 大 数据 医疗 
移动 智能 大 数据 应 用 等 大 数据 应 用 代表 企业 共同 围绕 “大 数据 ， 智 未 来 ”的 主题 ， 





讨论 了 “如 何 依托 大 数据 提供 更 符合 社会 需求 的 产品 和 服务 ”“ 大 数据 如 何 为 精准 营销 提供 


强大 的 驱 

截至 
慧 城 市 、 
行为 数据 
出 结论 ， 

而 智 
模式 里 ， 
丰富 ， 而 
学 习 就 能 

大 数 
针对 数据 
须 进 行 变 


1.1.4 
根据 
会 增长 4 
储 。 就 传 
结构 化 数 
独 。2005 
大 数 


传统 
不 同 的 格 
同时 ， 大 
征 : 

@ 

@ 


动力 ”等 业界 最 关注 的 热点 话题 。 

目前 ， 大 数据 应 用 的 商业 价值 已 经 在 互联 网 金融 、 智 能 可 穿戴 设备 、 人 工 智 能 、 智 
精准 营销 等 多 个 领域 体现 。 其 中 ， 在 互联 网 金融 领域 ， 通 过 分 析 大 量 的 网 络 交易 及 
， 可 对 用 户 进行 信用 评估 ， 从 而 帮助 互联 网 金融 企业 对 用 户 还 款 意愿 及 还 款 能 力 得 
继而 为 用 户 提供 快速 授信 及 现金 分 期 服务 。 

能 可 穿戴 设备 “真正 ”的 主线 产品 是 由 云端 大 数据 引出 的 软件 与 服务 。 将 来 在 新 的 
硬件 和 服务 都 要 具备 快速 迭代 的 能 力 ， 同 时 集成 更 多 的 传感器 ， 数 据 来 源 将 越 来 越 
数据 分 析 服 务 将 利用 更 多 种 类 的 数据 来 交叉 分 析 ， 无 须 用 户 干预 而 通过 数据 智能 化 
把 人 一 天 重要 的 生理 活动 描绘 出 来 ， 通 过 数据 把 行为 量化 。 

据 一 个 主要 特性 是 复杂 ， 这 就 意味 着 它 的 多 元 性 。 大 数据 不 再 是 结构 化 数据 ， 因 此 
分 析 的 模型 和 理论 都 必须 重新 构建 ， 甚 至 分 析 大 数据 行为 特征 所 依托 的 软 硬 件 都 必 
革 。 


大 数据 技术 特点 和 研究 内 容 

际 数据 公司 (IDC) 的 测算 ，2011 年 数字 世界 将 产生 1800EB 的 数据 ，2012 年 
0%， 达 到 2500EB。 截 止 2020 年 ， 会 达到 35000EB， 似 乎 没有 足够 的 磁盘 空间 存 
统 IT 企业 来 看 ， 其 结构 化 和 非 结 构 化 的 数据 增长 也 是 惊人 的 。2005 年 企业 存储 的 
据 为 4EB， 到 2015 年 将 增 至 29EB， 年 复合 增长 率 逾 20%。 非 结构 化 数据 发 展 更 
年 为 22EB，2015 年 将 增 至 1600EB， 年 复合 增长 率 约 60%， 远 远 快 于 摩尔 定律 。 
据 具 有 5 个 主要 的 技术 特点 ， 人 们 将 其 总 结 为 5V 特征 : 


Volume ( 大体 量 ) : 可 从 数 百 TB 到 数 十 数 百 PB， 甚 至 EB 的 规模 。 

Variety ( 多 样 性 ) : 大 数据 包括 各 种 格式 和 形态 的 数据 。 

Velocity (时效 性 ) : 很 多 大 数据 需要 在 一 定 的 时 间 限 度 下 得 到 及 时 处 理 。 

Veracity ( 准确 性 ) : 处 理 的 结果 要 保证 一 定 的 准确 性 。 

Value (大 价值 ) : 大 数据 包含 很 多 深度 的 价值 ， 大 数据 分 析 挖 据 和 利用 将 带 来 巨大 
的 商业 价值 。 


的 数据 库 系统 主要 面向 结构 化 数据 的 存储 和 处 理 ， 但 现实 世界 中 的 大 数据 具有 各 种 
式 和 形态 。 据 统计 ， 现 实 世 界 中 80% 以 上 的 数据 都 是 文本 和 媒体 等 非 结构 化 数据 ; 
数据 还 具有 很 多 不 同 的 计算 特征 。 我 们 可 以 从 多 个 角度 分 类 大 数据 的 类 型 和 计算 特 














从 数据 结构 特征 角度 看 ， 大 数据 可 分 为 结构 化 与 非 结构 化 / 半 结 构 化 数据 。 
从 数据 获取 处 理 方式 看 ， 大 数据 可 分 为 批 处 理 与 流 式 计算 方式 。 
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@ ”从 数据 处 理 类 型 看 ， 大 数据 处 理 可 分 为 传统 的 查询 分 析 计 算 和 复杂 数据 挖 气 计算 。 

@ ”从 大 数据 处 理 响应 性 能 看 ， 大 数据 处 理 可 分 为 实时 / 准 实时 与 非 实 时 计算 ,或 者 是 联 
机 计算 与 线 下 计算 。 前 述 的 流 式 计算 通常 属于 实时 计算 ， 此 外 查询 分 析 类 计算 通常 
也 要 求 具有 高 响应 性 能 ， 因 而 也 可 以 归 为 实时 或 准 实时 计算 。 而 批 处 理 计算 和 复杂 
数据 挖掘 计算 通常 属于 非 实时 或 线 下 计算 。 

@ ”从 数据 关系 角度 看 ， 大 数据 可 分 为 简单 关系 数据 (如 Web 日 志 ) 和 复杂 关系 数据 
(如 社会 网 络 等 具有 复杂 数据 关系 的 图 计算 ) 。 

@ ”从 远 代 计 算 角 度 看 ， 现 实 世 界 的 数据 处 理 中 有 很 多 计算 问题 需要 大 量 的 迭代 计算 ， 
诸如 一 些 机 器 学 习 等 复杂 的 计算 任务 会 需要 大 量 的 迭代 计算 ， 为 此 需要 提供 具有 高 
效 的 迁 代 计算 能 力 的 大 数据 处 理 和 计算 方法 。 

@ ”从 并 行 计算 体系 结构 特征 角度 看 ， 由 于 需要 支持 大 规模 数据 的 存储 和 计算 ， 因 此 目 
前 绝 大 多 数 大 数据 处 理 都 使 用 基于 集群 的 分 布 式 存储 与 并 行 计算 体系 结构 和 硬件 平 
台 。MapReduce 是 最 为 成 功 的 分 布 式 存储 和 并 行 计算 模式 。 然 而 ， 基 于 磁盘 的 数据 
存储 和 计算 模式 使 MapReduce 难以 实现 高 响应 性 能 。 为 此 人 们 从 分 布 计算 体系 结构 
层面 上 又 提出 了 内 存 计算 的 概念 和 技术 方法 。 


大 数据 的 研究 与 分 析 应 用 的 意义 和 价值 十 分 重大 ， 带 来 巨大 的 挑战 、 技 术 创新 与 商机 。 
维克托 。 迈 克 - 舍 恩 伯 格 在 《大 数据 时 代 》 中 列举 了 大 量 翔 实 的 案例 ， 指 出 了 大 数据 的 发 展 思 
路 ， 大 数据 开启 了 生活 、 工 作 和 创新 的 思维 模式 ， 影 响 了 我 们 的 经 济 、 政 治 、 科 技 和 社会 发 
展 的 各 个 领域 ， 由 于 大 数据 应 用 行业 需求 的 日 益 增长 ， 大 数据 的 并 行 计算 技术 越 来 越 多 地 渗 
透 到 每 个 涉及 大 规模 数据 和 复杂 计算 的 应 用 领域 。 因 此 ， 以 大 数据 处 理 为 中 心 的 技术 变革 ， 
直接 刺激 计算 机 体系 结构 、 操 作 系统 、 数 据 库 、 编 译 技 术 、 程 序 设计 、 软 件 工程 、 多 媒体 信 
息 处 理 、 人 工 智 能 以 及 其 他 计算 机 应 用 技术 ， 融 合 传统 技术 产生 很 多 相应 的 新 的 研究 课题 与 
热点 。 


1.1.5 ”大 数据 计算 与 系统 

大 数据 中 蕴含 的 宝贵 价值 成 为 人 们 存储 和 处 理 大 数据 的 驱动 力 。 维 克 托 。 迈 克 - 舍 恩 伯 格 
在 《大 数据 时 代 》 一 书 中 指出 了 大 数据 时 代 处 理 数 据 理念 的 三 大 转变 ， 即 要 全 体 不 要 抽样 ， 
要 效率 不 要 绝对 精确 ， 要 相关 不 要 因果 。 因 此 ， 海 量 数据 的 处 理 对 于 当前 存在 的 技术 来 说 是 
-种 极 大 的 挑战 。 目 前 ， 人 们 对 大 数据 的 处 理 形式 主要 是 对 静态 数据 的 批量 处 理 、 对 在 线 数 
据 的 实时 处 理 ， 以 及 对 图 数据 的 综合 处 理 。 其 中 ， 在 线 数据 的 实时 处 理 又 包括 对 流 式 数 据 的 
处 理 和 实时 交互 计算 两 种 。 

MapReduce 计算 模式 的 出 现 有 力 地 推动 了 大 数据 技术 和 应 用 的 发 展 ， 使 其 成 为 目前 大 数 
据 处 理 最 成 功 的 主流 大 数据 计算 模式 。 然 而 ， 现 实 世界 中 的 大 数据 处 理 问题 复杂 多 样 ， 难 以 
有 一 种 单一 的 计算 模式 能 涵盖 所 有 不 同 的 大 数据 计算 需求 。 研 究 和 实际 应 用 中 发 现 ， 由 于 
MapReduce 主要 适合 于 进行 大 数据 线 下 批 处 理 ， 在 面向 低 延 迟 和 具有 复杂 数据 关系 和 复杂 计 
算 的 大 数据 问题 时 有 很 大 的 不 适应 性 。 因 此 ， 近 几 年 来 学 术 界 和 业界 在 不 断 研究 并 推出 多 种 
不 同 的 大 数据 计算 模式 。 所 谓 大 数据 计算 模式 ， 是 指 根据 大 数据 的 不 同 数据 特征 和 计算 特 
征 ， 从 多 样 性 的 大 数据 计算 问题 和 需求 中 提炼 并 建立 的 各 种 高 层 抽象 (Abstraction〉 和 模型 
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(Model) 。 传 统 的 并 行 计算 方法 主要 从 体系 结构 和 编程 语言 的 层面 定义 了 一 些 较为 底层 的 
抽象 和 模型 ， 但 由 于 大 数据 处 理 问题 具有 很 多 高 层 的 数据 特征 和 计算 特征 ， 因 此 大 数据 处 理 
需要 更 多 地 结合 其 数据 特征 和 计算 特性 考虑 更 为 高 层 的 计算 模式 中。 

根据 大 数据 处 理 多 样 性 的 需求 ， 目 前 出 现 了 多 种 典型 和 重要 的 大 数据 计算 模式 与 系统 。 
与 这 些 计算 模式 相 适 应 ， 出 现 了 很 多 对 应 的 大 数据 计算 模式 和 系统 工具 。 本 节 将 详细 曾 述 上 
述 各 种 数据 形式 的 特征 和 各 自 的 典型 应 用 以 及 相应 的 代表 性 系统 。 


1. 大 数 振 查 角 分 析 i 算 HBase、Hive、Cassandra、Premel、Impala、Shark、Hana、Redis 等 


大 数据 查询 分 析 是 云 计 算 中 的 核心 问题 之 一 ，Google 在 2006 年 之 前 的 几 篇 论文 黄 定 云 
计算 领域 基础 ， 尤 其 是 GFS、Map-Reduce、Bigtable 被 称 为 云 计算 底层 技术 的 三 大 基石 。 
GFS、Map-Reduce 技术 直接 支持 了 Apache Hadoop 项 目的 诞生 。Bigtable 和 Amazon Dynamo 
直接 催生 了 NoSQL 这 个 崭新 的 数据 库 领域 ， 撼 动 了 RDBMS 在 商用 数据 库 和 数据 仓库 方面 
几 十 年 的 统治 性 地 位 。FaceBook 的 Hive 项 目 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 ， 提 供 
了 一 系列 用 于 存储 、 查 询 和 分 析 大 规模 数据 的 工具 。 当 我 们 还 沉浸 在 GFS、Map-Reduce、 
Bigtable 等 Google 技术 中 ， 并 进行 理解 、 掌 握 、 模 仿 时 ，Google 连续 推出 了 多 项 新 技术 ， 包 
括 : Dremel、Pregel、Percolator、Spanner 和 Fl1。 其 中 ，Dremel 促使 了 实时 计算 系统 的 兴 
起 ，Pregel 开辟 了 图 数据 计算 这 个 新 方向 ，Percolator 使 分 布 式 增 量 索引 更 新 成 为 文本 检索 领 
域 的 新 标准 ，Spanner 和 F1 向 我 们 展现 了 跨 数据 中 心 数据 库 的 可 能 。 在 Google 的 第 二 波 技术 
浪潮 中 ， 基 于 Hive 和 Dremel， 新 兴 的 大 数据 公司 Cloudera 开源 了 大 数据 查询 分 析 引 擎 
Impala，Hortonworks 开源 了 Stinger，Fackbook 开源 了 Presto。 类 似 Pregel，UC Berkeley 
AMPLAB 实验 室 开 发 了 Spark 图 计算 框架 ， 并 以 Spark 为 核心 开源 了 大 数据 查询 分 析 引 擎 
Shark。 由 于 某 电信 运营 商 项 目 中 大 数据 查询 引擎 选 型 需求 ， 本 节 将 会 对 Hive、Impala、 
Shark、Stinger 和 Presto 这 五 类 主流 的 开源 大 数据 查询 分 析 引 擎 进行 简要 介绍 以 及 性 能 比较 。 
Hive、Impala、Shark、Stinger 和 Presto 的 进化 图 谱 如 图 1-1 所 示 。 




















图 1-1 Hive、Impala、Shark、Stinger 和 Presto 的 进化 图 谱 
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基于 Map-Reduce 模式 的 Hadoop 擅长 数据 批 处 理 ， 不 是 特别 符合 即时 查询 的 场景 。 

实时 查询 一 般 使 用 MPP (Massively Parallel Processing) 的 架构 ， 因 此 用 户 需 要 在 Hadoop 
和 MPP 两 种 技术 中 选择 。 在 Google 的 第 二 波 技术 浪潮 中 ， 一 些 基于 Hadoop 架构 的 快速 
SQL 访问 技术 逐步 获得 人 们 关注 。 现 在 有 一 种 新 的 趋势 是 MPP 和 Hadoop 相 结合 提供 快 
速 SQL 访问 框架 。 最 近 有 4 个 很 热门 的 开源 工具 出 来 : Impala、Shark、Stinger 和 
Presto， 这 也 显示 了 大 数据 领域 对 于 Hadoop 生态 系统 中 支持 实时 查询 的 期 望 。 总 体 来 
说 ，Impala、Shark、Stinger 和 Presto 4 个 系统 都 是 类 SQL 实时 大 数据 查询 分 析 引 擎 ， 但 
是 它们 的 技术 侧重 点 完全 不 同 ， 而 且 它们 也 不 是 为 了 替换 Hive 而 生 ，Hive 在 做 数据 仓库 
时 是 非常 有 价值 的 。 这 4 个 系统 与 Hive 都 是 构建 在 Hadoop 之 上 的 数据 查询 工具 ， 各 有 
不 同 的 侧重 适应 面 ， 但 从 客户 端 使 用 来 看 它们 与 Hive 有 很 多 的 共同 之 处 ， 如 数据 表 元 数 
据 、Thrift 接口 、ODBC/JDBC 驱动 、SQL 语法 、 灵 活 的 文件 格式 、 存 储 资源 池 等 。Hive 
与 Impala、Shark、Stinger、Presto 在 Hadoop 中 的 关系 如 图 1-2 所 示 。Hive 适用 于 长 时 
间 的 批 处 理 查询 分 析 ， 而 Impala、Shark、Stinger 和 Presto 适用 于 实时 交互 式 SQL 查 
询 ， 它 们 给 数据 分 析 人 员 提 供 了 快速 实验 、 验 证 想法 的 大 数据 分 析 工 具 。 可 以 先 使 用 
Hive 进行 数据 转换 处 理 ， 之 后 使 用 这 4 个 系统 中 的 一 个 在 Hive 处 理 后 的 结果 数据 集 上 进 
行 快 速 的 数据 分 析 。 


| 
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图 1-2 Hive 与 Impala、Shark、Stinger、Presto 在 Hadoop 中 的 关系 





2. 批 处 理 计算 MapReduce、Spark 等 


最 适合 于 完成 大 数据 批 处 理 的 计算 模式 是 MapReduce， 这 是 MapReduce 设计 之 初 的 
主要 任务 和 目标 。MapReduce 是 一 个 单 输入 、 两 阶段 (Map 和 Reduce) 的 数据 处 理 过 
程 。 首 先 ，MapReduce 对 具有 简单 数据 关系 、 易 于 划分 的 大 规模 数据 采用 “分 而 治之 ” 
的 并 行 处 理 思想 ; 然后 将 大 量 重复 的 数据 记录 处 理 过 程 总 结 成 Map 和 Reduce 两 个 抽象 
的 操作 ;最 后 MapReduce 提供 了 一 个 统一 的 并 行 计算 框架 ， 把 并 行 计 算 所 涉及 的 诸多 系 
统 层 细节 都 交 给 计算 框架 去 完成 ， 以 此 大 大 简化 了 程序 员 进 行 并 行 化 程序 设计 的 负担 。 
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MapReduce 的 简单 易 用 性 使 其 成 为 目前 大 数据 处 理 最 成 功 的 主流 并 行 计算 模式 。 在 开源 
社区 的 努力 下 ， 开 源 的 Hadoop 系统 目前 已 成 为 较为 成 熟 的 大 数据 处 理 平台 ， 并 已 发 展 成 
一 个 包括 众多 数据 处 理工 具 和 环境 的 完整 的 生态 系统 。 目 前 几乎 国内 外 的 各 个 著名 IT 企 
业 都 在 使 用 Hadoop 平台 进行 企业 内 大 数据 的 计算 处 理 。 此 外 ，Spark 系统 也 具备 批 处 理 
计算 的 能 力 。 


3. 流 式 计算 Scribe、Flume、Storm、S4、Spark Steaming 等 


流 式 计算 无 法 确定 数据 的 到 来 时 刻 和 到 来 顺序 ， 也 无 法 将 全 部 数据 存储 起 来 。 因 
此 ， 不 再 进行 流 式 数据 的 存储 ， 而 是 当 流 动 的 数据 到 来 后 在 内 存 中 直接 进行 数据 的 实时 
计算 。 如 Twitter 的 Storm、Yahoo 的 S4 就 是 典型 的 流 式 数 据 计 算 架 构 ， 数 据 在 任务 拓扑 
中 被 计算 ， 并 输出 有 价值 的 信息 。 流 式 计算 和 批量 计算 分 别 适 用 于 不 同 的 大 数据 应 用 场 
景 : 对 于 先 存储 后 计算 ， 实 时 性 要 求 不 高 ， 同 时 ， 数 据 的 准确 性 、 全 面 性 是 更 为 重要 的 
应 用 场景 ， 批 量 计 算 模 式 更 合适 :对 于 无 须 先 存储 ， 可 以 直接 进行 数据 计算 ， 实 时 性 要 
求 很 严格 ,但 数据 的 精确 度 要 求 稍微 宽松 的 应 用 场景 ， 流 式 计算 具有 明显 优势 。 流 式 计 
算 中 ， 数 据 往往 是 最 近 一 个 时 间 窗 口内 的 ， 因 此 数据 延迟 往往 较 短 ， 实 时 性 较 强 ， 但 数 
据 的 精确 程度 往往 较 低 。 流 式 计 算 和 批量 计算 具有 明显 的 优 劣 互补 特征 ， 在 多 种 应 用 场 
合 下 可 以 将 两 者 结合 起 来 使 用 。 通 过 发 挥 流 式 计算 的 实时 性 优势 和 批量 计算 的 计算 精度 
优势 ， 满 足 多 种 应 用 场景 在 不 同 阶段 的 数据 计算 要 求 。 


4. 迭代 计算 HaLoop、iMapReduce、Twister、Spark 等 


传统 的 MapReduce 框架 把 一 个 作业 的 执行 过 程 分 为 两 个 阶段 : map 和 reduce， 在 
map 阶段 ， 每 个 map task 读 取 一 个 block， 并 调用 map() 函 数 进 行 处 理 ， 然 后 将 结果 写 到 
本 地 磁盘 上 ; 在 reduce 阶段 ， 每 个 reduce task 远程 地 从 map task 所 在 节点 上 读 取 数据 ， 
调用 reduce() 函 数 进行 数据 处 理 ， 并 将 最 终结 果 写 到 HDFS。 从 以 上 过 程 可 以 看 出 ，map 
阶段 和 reduce 阶段 的 结果 均 要 写 磁盘 ， 这 虽然 会 降低 系统 性 能 ， 但 可 以 提高 可 靠 性 。 正 
是 由 于 这 个 原因 ， 传 统 的 MapReduce 不 能 显 式 地 支持 友 代 编程 ， 如 果 用 户 硬 要 在 传统 
MapReduce 上 运行 迭代 式 作业 ， 性 能 将 非常 低 。 为 了 克服 Hadoop MapReduce 难以 支持 
迭代 计算 的 缺陷 ， 工 业界 和 学 术 界 对 Hadoop MapReduce 进行 了 改进 研究 ， 不 少 改 进 型 
的 MapReduce 出 现 了 ， 它 们 能 很 好 地 支持 迭代 式 开发 。 目 前 ， 一 个 具有 快速 和 灵活 的 迭 
代 计 算 能 力 的 典型 系统 是 Spark， 其 采用 了 基于 内 存 的 RDD 数据 集 模型 实现 快速 的 迭代 
计算 。 

5. 图 计算 Pregel、Giraph、Trinity、PowerGraph、GraphX 等 

目前 已 经 出 现 了 很 多 分 布 式 图 计算 系统 ， 其 中 较为 典型 的 系统 包括 Google 公司 的 
Pregel、Facebook 对 Pregel 的 开源 实现 Giraph、 微 软 公 司 的 Trinity、Spark 下 的 


GraphX、CMU 的 GraphLab 以 及 由 其 衍生 出 来 的 目前 性 能 最 快 的 图 数据 处 理 系统 
PowerGraph 。 
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6. 内 存 计算 Dremel、Hana、Redis 等 


随 着 内 存 价格 的 不 断 下 降 以 及 服务 器 可 配置 的 内 存 容量 的 不 断 提 高 ， 用 内 存 计算 完成 高 
速 的 大 数据 处 理 已 经 成 为 大 数据 计算 的 一 个 重要 发 展 趋势 。 例 如 ，Hana 系统 设计 者 总 结 了 很 
多 实际 的 商业 应 用 后 发 现 ， 一 个 提供 50TB 总 内 存 容量 的 计算 集群 将 能 够 满足 绝 大 多 数 现 有 
的 商业 系统 对 大 数据 的 查询 分 析 处 理 要 求 ， 如 果 一 个 服务 器 节点 可 配置 1TB 一 2TB 的 内 存 ， 
则 需要 25 一 50 个 服务 器 节点 。 目 前 Intel Xeon E-7 系列 处 理 器 最 大 可 支持 高 达 1.5TB 的 内 
存 ， 因 此 ， 配 置 一 个 上 述 大 小 规模 的 内 存 计 算 集群 是 可 以 做 到 的 。 


,2 ”数据 挖掘 及 其 相关 领域 应 用 


大 数据 时 代 ， 虽 然 数据 安全 被 一 而 再 地 强调 ， 但 是 人 们 显然 更 乐于 大 数据 和 数据 发 
掘 的 探索 。 从 巨 量 数据 中 提取 出 有 用 的 信息 ， 创 造 有 用 的 价值 都 是 各 个 领域 在 不 断 努 力 
的 方向 。 


1.2.1 数据 挖掘 概述 

数据 挖掘 (Data mining) ， 又 译 为 资料 探勘 、 数 据 采 矿 ， 它 是 数据 库 知 识 发 现 
(Knowledge-Discovery in Databases) KDD 中 的 一 个 步 又。 数据 挖掘 一 般 是 指 从 大 量 的 数据 中 
通过 算法 搜索 隐藏 于 其 中 信息 的 过 程 。 数 据 挖掘 通常 与 计算 机 科学 有 关 ， 并 通过 统计 、 在 线 
分 析 处 理 、 情 报 检 索 、 机 器 学 习 、 专 家 系统 〈 依 靠 过 去 的 经 验 法 则 ) 和 模式 识别 等 诸多 方法 
来 实现 上 述 目标 。 

数据 挖掘 是 一 个 从 数据 中 提取 模式 的 过 程 ， 是 一 个 受 多 个 学 科 影响 的 交叉 领域 ， 包 
括 数据 库 系 统 、 统 计 学 、 机 器 学 习 、 可 视 化 和 信息 科学 等 数据 挖掘 反复 使 用 多 种 数据 
挖掘 算法 从 观测 数据 中 确定 模式 或 合理 模型 ， 是 一 种 决策 支持 过 程 ， 通 过 预测 客户 的 行 
为 ， 帮 助 企业 的 决策 者 调整 市 场 策略 ， 减 少 风险 ， 做 出 正确 的 决策 。 由 于 传统 的 事物 型 
工具 〈 如 查询 工具 、 报 表 工 具 ) 无 法 回答 事先 未 定义 的 综合 性 问题 或 跨 部 门 /机 构 的 问 
题 ， 因 此 其 用 户 必 须 清楚 地 了 解 问题 的 目的 。 数 据 挖掘 就 可 以 回答 事先 未 加 定义 的 综合 
性 问题 或 跨 部 门 /机 构 的 问题 ， 挖 掘 潜在 的 模式 并 预测 未 来 的 趋势 ， 用 户 不 必 提 出 确切 的 
问题 ， rn 图 1-3 为 数据 挖掘 过 程 。 图 1-4 为 数据 挖 
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数据 清理 、 集 成 和 选择 


[ Se 





图 1-4 数据 挖 据 系 统 结构 

数据 挖掘 有 很 多 种 分 类 方法 ， 如 可 按 发 现 的 知识 种 类 、 控 掘 的 数据 库 类 型 、 挖 掘 方法 、 
挖掘 途径 、 所 采用 的 技术 等 分 类 。 下 面 只 讨论 4 个 应 用 比较 广泛 的 方法 。 

1. 关联 规则 ( Association Rule ) 

在 数据 挖掘 领域 中 ， 关 联 规则 应 用 最 为 广泛 ， 是 重要 的 研究 方向 ， 表 示 数 据 库 中 一 组 对 
象 之 间 某 种 关联 关系 的 规则 。 一 般 来 讲 ， 可 以 用 多 个 参数 来 描述 一 个 关联 规则 的 属性 ， 常 用 
的 有 : 可 信 度 、 支 持 度 、 兴 趣 度 、 期 望 可 信 度 、 作 用 度 。 

2. 离 群 数据 ( Outlier ) 


离 群 数据 就 是 明显 偏离 其 他 数据 、 不 满足 数据 的 一 般 模式 或 行为 、 与 存在 的 其 他 数据 不 
一 致 的 数据 。 数 据 挖掘 的 大 部 分 研究 忽视 了 离 群 数据 的 存在 和 意义 ， 现 有 的 方法 往往 研究 如 
何 减少 离 群 数据 对 正常 数据 的 影响 ， 或 仅仅 把 其 当 作 噪 音 来 对 待 。 这 些 离 群 数据 可 能 来 源 于 
计算 机 录入 错误 、 人 为 错误 等 ， 也 可 能 就 是 数据 的 真实 反映 。 


3. 基于 案例 的 推理 ( case-based reasoning, CBR ) 


基于 案例 的 推理 来 源 于 人 类 的 认 知 心理 活动 ， 它 属于 类 比 推理 方法 。 其 基本 思想 是 基于 
人 们 在 问题 求解 中 习惯 于 过 去 处 理 类 似 问题 的 经 验 和 获取 的 知识 ， 青 针对 新 旧情 况 的 差异 做 
相应 的 调整 ， 从 而 得 到 新 问题 的 解 并 形成 新 的 案例 。CBR 方法 的 应 用 越 来 越 受 到 人 们 的 重 
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视 ， 在 许多 领域 都 有 较 好 的 推广 前 景 ， 例 如 ， 在 气象 、 环 保 、 地 震 、 农 业 、 医 疗 、 商 业 、 
CAD 等 领域 ，CBR 也 可 用 在 计算 机 软 硬 件 的 生产 中 ， 如 软件 及 硬件 的 故障 检测 ; CBR 方法 
尤其 在 不 易 总 结 出 专家 知识 的 领域 中 ， 应 用 越 来 越 普遍 ， 也 越 来 越 深入 。 


4. 支持 向 量 机 ( Support Vector Machine , SVM ) 


支持 向 量 机 是 近 几 年 发 展 起 来 的 新 型 通用 的 知识 发 现 方法 ， 在 分 类 方面 具有 良好 的 性 
能 。SVM 是 建立 在 计算 学 习 理 论 结构 风险 的 最 小 化 原则 之 上 ， 主 要 思想 是 针对 两 类 分 类 问题 
在 高 位 空间 中 寻找 一 个 超 平面 作为 两 类 的 分 割 ， 以 保证 最 小 的 分 类 错误 率 。 


1.2.2 ”数据 挖掘 与 机 器 学 习 

数据 挖掘 受到 很 多 学 科 领 域 的 影响 ， 其 中 数据 库 、 机 器 学 习 、 统 计 学 无 疑 影响 最 大 。 简 
言 之 ， 对 数据 挖掘 而 言 ， 数 据 库 提供 数据 管理 技术 ， 机 器 学 习 和 统计 学 提供 数据 分 析 技 术 。 
由 于 统计 学 往往 醉心 于 理论 的 优美 而 忽视 实际 的 效用 ， 因 此 ， 统 计 学 界 提供 的 很 多 技术 通常 
都 要 在 机 器 学 习 界 进一步 研究 ， 变 成 有 效 的 机 器 学 习 算 法 之 后 才能 再 进入 数据 挖掘 领域 。 从 
这 个 意义 上 说 ， 统 计 学 主要 是 通过 机 器 学 习 来 对 数据 挖掘 发 挥 影响 ， 而 机 器 学 习 和 数据 库 则 
是 数据 挖掘 的 两 大 支撑 技术 。 从 数据 分 析 的 角度 来 看 ， 绝 大 多 数 数据 挖掘 技术 都 来 自 机 器 学 
习 领 域 ， 但 机 器 学 习 研 究 往往 并 不 把 海量 数据 作为 处 理 对 象 ， 因 此 ， 数 据 挖掘 要 对 算法 进行 
改造 ， 使 得 算法 性 能 和 空间 占用 达到 实用 的 地 步 。 

“机 器 学 习 ” 是 人 工 智能 的 核心 研究 领域 之 一 ， 其 最 初 的 研究 动机 是 为 了 让 计算 机 系统 
具有 人 的 学 习 能 力 以 便 实 现 人 工 智 能 ， 因 为 众所周知 ， 没 有 学 习 能 力 的 系统 很 难 被 认为 是 具 
有 智能 的 。 目 前 被 广泛 采用 的 机 器 学 习 的 定义 是 “利用 经 验 来 改善 计算 机 系统 自身 的 性 
能 ”。 事 实 上 ， 由 于 “经 验 ” 在 计算 机 系统 中 主要 是 以 数据 的 形式 存在 的 ， 因 此 机 器 学 习 需 
要 设法 对 数据 进行 分 析 ， 这 就 使 得 它 逐 渐 成 为 智能 数据 分 析 技 术 的 创新 源 之 一 ， 并 且 为 此 而 
受到 越 来 越 多 的 关注 。 

“数据 挖掘” 和 “知识 发 现 ” 通 常 被 相提并论 ， 并 在 许多 场合 被 认为 是 可 以 相互 蔡 代 的 
术语 。 对 数据 挖掘 有 多 种 文字 不 同 但 含义 接近 的 定义 ， 例 如 “识别 出 巨 量 数据 中 有 效 的 、 新 
颖 的 、 潜 在 有 用 的 、 最 终 可 理解 的 模式 的 非 平凡 过 程 ”。 其 实 顾名思义 ， 数 据 挖掘 就 是 试图 
从 海量 数据 中 找 出 有 用 的 知识 。 大 体 上 看 ， 数 据 挖掘 可 以 视 为 机 器 学 习 和 数据 库 的 交叉 ， 它 
主要 利用 机 器 学 习 界 提供 的 技术 来 分 析 海 量 数据 ， 利 用 数据 库 界 提供 的 技术 来 管理 海量 数 
据 。 


1.2.3 ”数据 挖掘 与 数据 库 
数据 挖掘 利用 了 来 自如 下 一 些 领域 的 思想 : 


(1) 来 自 统计 学 的 抽样 、 估 计 和 假设 检验 。 

(2) 人 工 智 能 、 模 式 识 别 和 机 器 学 习 的 搜索 算法 、 建 模 技 术 和 学 习 理 论 。 

数据 挖掘 也 迅速 地 接纳 了 来 自 其 他 领域 的 思想 ， 这 些 领 域 包括 最 优化 、 进 化 计算 、 信 息 
论 、 信 号 处 理 、 可 视 化 和 信息 检索 。 一 些 其 他 领域 也 起 到 重要 的 支撑 作用 ， 特 别 地 ， 需 要 数 
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据 库 系 统 提 供 有 效 的 存储 、 索 引 和 查询 处 理 支持 。 

要 将 庞大 的 数据 转换 成 为 有 用 的 信息 ， 必 须 先 有 效率 地 收集 信息 。 随 着 科技 的 进步 ， 功 
完善 的 数据 库 系 统 就 成 了 最 好 的 收集 数据 的 工具 。 数 据 仓库 ， 简 单 地 说 ， 就 是 搜集 来 自 其 
他 系统 的 有 用 数据 ， 存 放 在 一 整合 的 储存 区 内 。 所 以 其 实 就 是 一 个 经 过 处 理 整合 ， 且 容量 特 
别 大 的 关系 型 数据 库 ， 用 以 储存 决策 支持 系统 (Decision Support System) 所 需 的 数据 ， 供 决 
策 支 持 或 数据 分 析 使 用 。 从 信息 技术 的 角度 来 看 ， 数 据 仓 库 的 目标 是 在 组 织 中 ， 在 正确 的 时 
间 ， 将 正确 的 数据 交 给 正确 的 人 。 许 多 人 对 于 Data Warehousing 和 Data Mining 时 常 混 淆 ， 不 
知 如 何 分 辨 。 其 实 ， 数 据 仓 库 是 数据 库 技 术 的 一 个 新 主题 ， 利 用 计算 机 系统 帮助 我 们 操作 、 
计算 和 思考 ， 让 作业 方式 改变 ， 决 策 方式 也 跟着 改变 。 


1.2.4 ”数据 挖掘 与 统计 学 

数据 挖掘 源 自 于 统计 分 析 ， 而 又 不 同 于 统计 分 析 。 数 据 挖掘 不 是 为 了 替代 传统 的 统计 分 
析 技 术 ， 相 反 ， 数 据 挖 掘 是 统计 分 析 方 法 的 扩展 和 延伸 。 大 多 数 的 统计 分 析 技 术 都 基于 完善 
的 数学 理论 和 高 超 的 技巧 ， 其 预测 的 准确 程度 还 是 令 人 满意 的 ， 但 对 于 使 用 者 的 知识 要 求 比 
较 高 。 而 随 着 计算 机 能 力 的 不 断 发 展 ， 数 据 挖掘 可 以 利用 相对 简单 和 固定 程序 完成 同样 的 功 
能 。 新 的 计算 算法 的 产生 如 神经 网 络 、 决 策 树 使 人 们 不 需 了 解 到 其 内 部 复杂 的 原理 也 可 以 通 
过 这 些 方法 获得 良好 的 分 析 和 预测 效果 。 

由 于 数据 挖掘 和 统计 分 析 根 深 带 固 的 联系 ， 通 常 的 数据 挖掘 工具 都 能 够 通过 可 选 件 或 自 
身 提 供 统计 分 析 功 能 。 这 些 功能 对 于 数据 挖掘 的 前 期 数据 探索 和 数据 挖掘 之 后 对 数据 进行 总 
结 和 分 析 都 是 十 分 必要 的 。 统 计 分 析 所 提供 的 诸如 方差 分 析 、 假 设 检验 、 相 关 性 分 析 、 线 性 
预测 、 时 间 序 列 分 析 等 功能 都 有 助 于 数据 挖掘 前 期 对 数据 进行 探索 ， 发 现 数据 挖掘 的 题目 、 
找 出 数据 挖掘 的 目标 、 确 定数 据 挖掘 所 需 涉及 的 变量 、 对 数据 源 进行 抽样 等 。 所 有 这 些 前 其 
工作 对 数据 挖掘 的 效果 产生 重大 影响 ， 而 数据 挖掘 的 结果 也 需要 统计 分 析 的 描述 功能 〈 最 大 
值 、 最 小 值 、 平 均值 、 方 差 、 四 分 位 、 个 数 、 概 率 分 配 ) 进行 具体 描述 ， 使 数据 挖掘 的 结果 
能 够 被 用 户 了 解 。 因 此 ， 统 计 分 析 和 数据 挖掘 是 相辅相成 的 过 程 ， 两 者 的 合理 配合 是 数据 挖 
掘 成 功 的 重要 条 件 。 


1.2.5 “数据 挖掘 与 决策 支持 

数据 挖掘 的 知识 通常 表现 为 概念 、 规 则 、 规 律 、 模 式 、 约 束 和 可 视 化 等 形式 。 这 些 知识 
经 过 解释 后 可 以 直接 在 实际 系统 中 应 用 ， 以 辅助 决策 过 程 ; 或 者 提供 给 领域 专家 ， 修 正 专家 
已 有 的 知识 体系 ; 也 可 以 作为 新 的 知识 转 存 到 应 用 系统 的 知识 库 中 。 发 现 的 过 程 是 使 数据 控 
掘 利用 各 种 知识 发 现 算法 ， 从 数据 库 中 发 现 、 表 达 、 更 新 和 解释 有 关 知 识 的 过 程 。 

作为 信息 处 理 新 发 展 阶段 的 决策 支持 系统 尚 处 于 初级 阶段 , 投入 应 用 的 成 功 实例 并 不 
多 。 有 些 开 发 的 系统 仅 为 简单 的 查询 系统 或 报表 系统 ， 并 不 能 给 决策 者 提供 辅助 决策 信息 。 
分 析 原 因 主要 有 以 下 几 个 方面 

(1) 决策 支持 系统 需要 以 集成 数据 为 基础 ， 然 而 现实 中 的 数据 往往 是 分 散 管理 的 且 大 多 
分 布 于 异 构 的 数据 平台 ， 数 据 集成 不 易 。 

(2) 决策 支持 涉及 大 量 历史 数据 和 半 结 构 化 问题 ， 传 统 的 数据 库 管 理 系统 因 自身 的 局 限 
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性 并 不 提供 这 些 方 面 的 支持 。 

(3) 决策 支持 系统 的 建立 需要 对 数据 、 模 型 、 知 识 和 接口 进行 集成 。 数 据 库 语言 数值 计 
算 能 力 较 低 ， 因 而 采用 数据 库 管理 技术 建立 决策 支持 系统 在 辅助 决策 支持 方面 知识 表达 、 知 
识 综合 和 知识 推理 能 力 比较 薄弱 ， 难 以 满足 人 们 日 益 提 高 的 决策 要 求 。 近 年 来 ， 数 据 挖掘 技 
术 的 发 展 给 以 上 问题 的 解决 带 来 了 新 的 契机 。 





1.2.6 ”数据 挖掘 与 云 计算 

人 类 社会 信息 正 以 “每 18 个 月 产生 的 数量 等 于 过 去 几 千年 的 总 和 ”的 速度 不 断 增加 ， 如 
此 浩瀚 的 数据 在 带 给 人 们 大 量 信息 的 同时 ， 也 极 大 地 增加 了 人 们 从 海量 数据 中 发 现 有 用 知识 
的 难度 ， 而 解决 这 一 问题 的 努力 促进 了 云 计算 和 数据 挖掘 技术 的 结合 和 快速 发 展 。 


按照 中 








于 








电子 学 会 云 计算 专家 委员 会 的 技术 白皮书 阐述 ， 云 计算 是 一 种 基于 互联 网 的 、 


大 众 参 与 的 计算 模式 ， 其 计算 资源 〈 计 算 能 力 、 存 储 能 力 、 交 互 能力 ) 是 动态 、 可 伸缩 ， 且 
被 虚拟 化 的 ， 而 且 以 服务 的 方式 提供 。 

数据 挖掘 远 比 信息 搜索 要 复杂 。 过 去 对 海量 数据 的 处 理 主要 是 通过 高 性 能 机 或 者 更 大 规 
模 的 计算 设备 来 实现 ， 现 在 通过 基于 云 计算 的 数据 挖掘 能 更 好 地 达到 目的 。 采 用 云 计算 模式 
有 许多 好 处 ， 成 本 低廉 、 容 错 性 强 、 计 算 速 度 快 、 程 序 开发 便捷 、 节 点 的 增加 更 容易 。 可 以 
说 云 计 算是 数据 挖掘 中 普遍 适用 ， 较 为 理想 的 计算 模式 ， 也 是 我 们 从 海量 数据 中 找到 有 用 、 
可 理解 的 知识 的 技术 手段 。 

通过 云 计算 的 海量 数据 存储 和 分 布 计算 ， 为 云 计算 环境 下 的 海量 数据 挖掘 提供 了 新 的 方 
法 和 手段 ， 有 效 解决 了 海量 数据 挖掘 的 分 布 存 储 和 高 效 计算 问题 。 开 展 基于 云 计算 的 数据 挖 
掘 方法 的 研究 ， 可 以 为 更 多 、 更 复杂 的 海量 数据 挖掘 提供 新 的 理论 与 支撑 工具 。 而 作为 传统 
数据 挖掘 向 云 计 算 的 延伸 将 推动 互联 网 技术 成 果 服 务 于 大 众 ， 是 促进 信息 资源 的 深度 分 享 和 
可 持续 利用 的 新 方法 、 新 途径 。 


] .本 大 数据 应 用 


不 计 其 数 的 互联 网 用 户 和 机 器 间 的 连接 导致 数据 呈 爆 炸 式 增长 。 使 用 大 数据 需要 将 信息 
基础 设施 转型 为 一 个 更 加 灵活 、 更 具 分 布 式 且 更 开放 的 环境 。 了 解 什么 是 大 数据 和 大 数据 对 
行业 的 意义 之 后 ， 即 可 开始 着 手 规划 大 数据 项 目 。 确 定 合 适 的 时 机 ， 评 估 当 前 的 环境 ， 分 析 
项 目 需求 并 确定 技术 需要 。 


1.3.1 大 数据 应 用 案例 
什么 是 大 数据 ? 我 们 不 再 举例 说 啤酒 和 尿布 的 例子 了 ，Gartner 的 分 析 师 Doug Laney 在 
讲解 大 数据 案例 时 提 到 过 8 个 更 有 新 意 、 更 典型 的 案例 ， 可 帮助 我 们 更 清晰 地 理解 大 数据 时 


代 的 到 来 。 


(1) 梅 西 百 货 的 实时 定价 机 制 。 根 据 需求 和 库存 的 情况 ， 该 公司 基于 SAS 的 系统 对 多 
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达 7300 万 种 货品 进行 实时 调价 。 

(2) Tipp24 AG 针对 欧洲 博彩 业 构建 的 下 注 和 预测 平台 。 该 公司 用 KXEN 软件 来 分 析 数 
十 亿 计 的 交易 以 及 客户 的 特性 ， 然 后 通过 预测 模型 对 特定 用 户 进行 动态 的 营销 活动 。 这 项 举 
措 减 少 了 90% 的 预测 模型 构建 时 间 。SAP 公司 正在 试图 收购 KXEN。 

(3) 沃尔玛 的 搜索 。 这 家 零售 业 寡头 为 其 网 站 Walmart.com 自行 设计 了 最 新 的 搜索 引擎 
Polaris， 利 用 语义 数据 进行 文本 分 析 、 机 器 学 习 和 同义词 挖掘 等 。 根 据 沃尔玛 的 说 法 ， 语 义 
搜索 技术 的 运用 使 得 在 线 购物 的 完成 率 提升 了 10% 到 15%。“ 对 沃尔玛 来 说 ， 这 就 意味 着 数 
十 亿美 元 的 金额 。”Laney 说 。 

(4) 快餐 业 的 视频 分 析 。 该 公司 通过 视频 分 析 等 候 队列 的 长 度 ， 然 后 自动 变化 电子 菜单 
显示 的 内 容 。 如 果 队列 较 长 ， 则 显示 可 以 快速 供给 的 食物 ， 如 果 队 列 较 短 ， 则 显示 那些 利润 
较 高 但 准备 时 间 相 对 长 的 食品 。 

(5) Morton 牛排 店 的 品牌 认 知 。 当 一 位 顾客 开玩笑 地 通过 推 特 向 这 家 位 于 芝加哥 的 牛 
排 连 锁 店 订餐 送 到 纽约 Newark 机 场 〈 他 将 在 一 天 工作 之 后 抵达 该 处 ) 时 ，Morton 就 开始 了 
自己 的 社交 秀 。 首 先 ， 分 析 推 特 数据 ， 发 现 该 顾客 是 本 店 的 常客 ， 也 是 推 特 的 常用 者 。 根 据 
客户 以 往 的 订单 ， 推 测 出 其 所 乘 的 航班 ， 然 后 派出 一 位 身 着 燕尾 服 的 侍者 为 客户 提供 晚餐 。 

(6) PredPol Inc.。PredPol 公司 通过 与 洛杉矶 和 圣 克 鲁 斯 的 警方 以 及 一 群 研究 人 员 合 
作 ， 基 于 地 震 预 测算 法 的 变 体 和 犯罪 数据 来 预测 犯罪 发 生 的 几率 ， 可 以 精确 到 500 平方 英尺 
的 范围 内 。 在 洛杉矶 运用 该 算法 的 地 区 ， 盗 窃 罪 和 暴力 犯罪 分 布下 降 了 33% 和 21%。 

(7) Tesco PLC 〈 特 易 购 ) 和 运营 效率 。 这 家 超市 连锁 在 其 数据 仓库 中 收集 了 700 万 部 
冰箱 的 数据 。 通 过 对 这 些 数据 的 分 析 ， 进 行 更 全 面 的 监控 并 进行 主动 的 维修 以 降低 整体 能 
耗 。 

(8) American Express (AmEx， 美 国运 通 ) 和 商业 智能 。 以 往 ，AmEx 只 能 实现 事后 诸 
葛 式 的 报告 和 灌 后 的 预测 。“ 传 统 的 BI 已 经 无 法 满足 业务 发 展 的 需要 。”Laney 认为 。 于 
是 ，AmEx 开始 构建 真正 能 够 预测 忠诚 度 的 模型 ， 基 于 历史 交易 数据 ， 用 115 个 变量 来 进行 
分 析 预 测 。 该 公司 表示 ， 对 于 澳大利亚 将 于 之 后 四 个 月 中 流失 的 客户 ， 已 经 能 够 识别 出 其 中 
的 24%。 


1.3.2 ”大 数据 应 用 场景 

当 我 们 最 初 接触 大 数据 的 时 候 ， 谈 得 最 多 的 可 能 是 用 户 行为 分 析 ， 即 通过 各 种 用 户 行 
为 ， 包 括 浏览 记录 、 消 费 记录 、 交 往 和 购物 娱乐 、 行 动 轨迹 等 产生 的 数据 。 由 于 这 些 数据 本 
身 符合 海量 、 异 构 的 特征 ， 同 时 通过 分 析 这 些 数 据 之 间 的 关联 性 容易 匹配 某 些 结果 现象 。 即 
有 一 堆 的 行为 因子 x， 同时 又 有 一 堆 的 结果 构成 y， 我 们 找寻 到 了 某 种 相关 性 ， 有 利于 我 们 调 
整 后 续 的 各 种 策略 。 

为 何 Google 能 够 做 大 数据 ? 你 思考 过 吗 ? 因为 搜索 本 身 往往 是 用 户 行为 的 一 个 重要 入 
口 ， 即 搜索 引擎 具备 了 实时 采集 多 个 用 户 行为 的 x 因子 的 能 力 。 而 这 个 能 力 往往 是 单个 电 商 
门户 网 站 无 法 做 到 的 。 但 是 搜索 引擎 做 大 数据 的 弱势 在 哪里 ? 即 前 面谈 到 的 用 户 和 用 户 之 间 
的 关系 较 难 建立 ， 而 更 多 的 是 本 身 行为 之 间 的 相关 性 。 从 这 个 差异 上 也 可 以 看 到 搜索 引擎 更 
加 容易 做 交通 、 疾 病 、 气 象 等 方面 的 大 数据 分 析 和 预测 ， 而 类 似 电 商 平台 或 类 似 腾讯 更 加 容 


第 1 章 大 数据 处 理 概述 
易 做 消费 和 娱乐 类 的 大 数据 分 析 和 预测 。 


对 于 大 数据 的 应 用 场景 ， 包 括 各 行 各 业 对 大 数据 处 理 和 分 析 的 应 用 ， 最 核心 的 还 是 用 户 
需求 。 接 下 来 ， 本 文通 过 梳理 各 个 行业 在 大 数据 应 用 领域 面临 的 挑战 、 如 何 寻 找 突破 口 来 展 
示 其 潜在 存在 的 大 数据 应 用 场景 。 


1. 医疗 大 数据 ， 医 患 看 病 更 高 效 


除了 较 早 前 就 开始 利用 大 数据 的 互联 网 公司 ， 医 疗 行业 是 让 大 数据 分 析 最 先 发 扬 光大 的 
传统 行业 之 一 。 医 疗 行业 拥有 大 量 的 病例 、 病 理 报告 、 治 愈 方案 、 药 物 报告 等 。 如 果 这 些 数 
据 可 以 被 整理 和 应 用 将 会 极 大 地 帮助 医生 和 病人 。 我 们 面 对 的 数目 及 种 类 众多 的 病菌 、 病 
毒 ， 以 及 肿瘤 细胞 ， 其 都 处 于 不 断 地 进化 的 过 程 中 。 在 发 现 诊断 疾病 时 ， 疾 病 的 确诊 和 治疗 
方案 的 确定 是 最 困难 的 。 

在 未 来 ， 借 助 于 大 数据 平台 我 们 可 以 收集 不 同 病 例 和 治疗 方案 ， 以 及 病人 的 基本 特征 ， 
可 以 建立 针对 疾病 特点 的 数据 库 。 如 果 未 来 基因 技术 发 展 成 熟 ， 可 以 根据 病人 的 基因 序列 特 
点 进行 分 类 ， 建 立 医疗 行业 的 病人 分 类 数据 库 。 在 医生 诊断 病人 时 可 以 参考 病人 的 疾病 特 
征 、 化 验 报告 和 检测 报告 ， 参 考 疾病 数据 库 来 快速 帮助 病人 确诊 ， 明 确定 位 疾病 。 在 制定 治 
疗 方案 时 ， 医 生 可 以 依据 病人 的 基因 特点 ， 调 取 相似 基因 、 年 龄 、 人 种 、 身 体 情况 相同 的 有 
效 治疗 方案 ， 制 定 出 适合 病人 的 治疗 方案 ， 帮 助 更 多 人 及 时 进行 治疗 。 同 时 这 些 数据 也 有 利 
于 医疗 行业 开发 出 更 加 有 效 的 药物 和 医疗 器 械 。 

医疗 行业 的 数据 应 用 一 直 在 进行 ， 但 是 数据 没有 打通 ， 都 是 孤岛 数据 ， 没 有 办 法 进行 大 
规模 应 用 。 未 来 需要 将 这 些 数据 统一 收集 起 来 ， 纳 入 统一 的 大 数据 平台 ， 为 人 类 健康 造福 。 
政府 和 医疗 行业 是 推动 这 一 趋势 的 重要 动力 。 

2. 生物 大 数据 ， 人 类 改良 基因 策略 基础 

自 人 类 基因 组 计划 完成 以 来 ， 以 美国 为 代表 ， 世 界 主要 发 达 国家 纷纷 启动 了 生命 科学 基 
础 研究 计划 ， 如 国际 千 人 基因 组 计划 、DNA 百科 全 书 计划 、 英 国 十 万 人 基因 组 计划 等 。 这 些 
计划 引领 生物 数据 呈 爆 炸 式 增长 ， 目 前 每 年 全 球 产 生 的 生物 数据 总 量 已 达 EB 级 ， 生 命 科学 
领域 正在 爆发 一 次 数据 革命 ， 生 命 科 学 某 种 程度 上 已 经 成 为 大 数据 科学 。 

我 们 来 看 看 今天 的 准 妈妈 们 ， 除 了 要 准备 尿布 、 奶 瓶 和 婴儿 装 ， 她 们 还 会 把 基因 测试 列 
入 计划 单 。 基 因 测 试 能 让 未 来 的 父母 对 于 他 们 未 出 生 的 baby 的 健康 有 更 多 的 了 解 。 对 基因 携 
带 者 筛 查 和 胚胎 植 入 前 诊断 ， 使 一 个 家 庭 孕 育 小 孩 的 过 程 产生 了 巨大 改变 。 

当下 ， 我 们 所 说 的 生物 大 数据 技术 主要 是 指 大 数据 技术 在 基因 分 析 上 的 应 用 ， 通 过 大 数 
据 平台 人 类 可 以 将 自身 和 生物 体 基因 分 析 的 结果 进行 记录 和 存储 ， 利 用 建立 基于 大 数据 技术 
的 基因 数据 库 ， 大 数据 技术 将 会 加 速 基因 技术 的 研究 ， 快 速 帮助 科学 家 进行 模型 的 建立 和 基 
因 组 合 模拟 计算 。 基 因 技 术 是 人 类 未 来 战胜 疾病 的 重要 武器 ， 借 助 于 大 数据 技术 的 应 用 ， 人 
们 将 会 加 快 自身 基因 和 其 他 生物 的 基因 的 研究 进程 。 未 来 利用 生物 基因 技术 来 改良 农作物 、 
利用 基因 技术 来 培养 人 类 器 官 、 利 用 基因 技术 来 消灭 害虫 都 即将 实现 。 

与 全 球 蒸蒸日上 的 生物 大 数据 创新 发 展 热潮 相 比 ， 中 国 的 研发 及 应 用 才 拉 开 帷 幕 。 我 国 
有 四 大 方面 非常 众 缺 : 其 一 ， 国 内 现 有 的 生物 大 数据 分 析 能 力 虽 然 与 欧美 相差 不 大 ， 但 是 在 
数据 分 析 构架 、 软 件 系统 与 先进 的 IT 技术 接轨 上 有 待 提升 ;其 二 ， 国 外 在 生物 大 数据 领域 的 
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领先 人 才 多 ， 尽 管 我 们 也 有 国际 顶级 刊物 上 发 表 的 论文 和 成 果 ， 总 体 而 言 ， 国 内 高 水 准 团队 
还 是 少 ; 其 三 ， 欧 美 讲 求 成 果 应 用 ， 层 出 不 穷 的 分 析 软 件 可 被 实验 室 、 临 床 、 产 业 多 方 应 
用 ; 其 四 ， 在 生物 大 数据 理论 研究 、 标 准 制 定 和 广泛 应 用 上 ， 中 国都 蝇 待 全 面 跟 进 。 


3. 金融 大 数据 ， 金 融 行业 理财 利器 

金融 行业 的 大 数据 面临 的 往往 是 同样 的 问题 ， 但 是 情况 可 能 要 好 点 : 类 似 企 业 和 个 人 的 
一 些 信 用 记录 现在 有 全 国 性 质 的 统一 数据 库 能 够 拿 到 部 分 数据 ， 但 是 对 于 单个 银行 来 说 ， 同 
样 是 无 法 拿 到 用 户 在 其 他 银行 的 行为 记录 数据 的 ; 其 二 银行 本 身 在 做 很 多 信贷 风险 分 析 的 时 
候 ， 确 实 需要 大 量 数据 做 相关 性 分 析 ， 但 是 很 多 数据 来 源 于 政府 各 个 职能 部 门 ， 包 括 工商 税 
务 、 质 量 监督 、 检 察 院 法 院 等 ， 这 些 数据 短期 仍然 是 无 法 拿 到 ;还 有 就 是 企业 或 个 人 从 事 日 
常 产生 的 各 种 行为 数据 更 难 拿 到 ;那么 ， 对 客户 的 风险 性 评估 还 是 得 借用 原来 的 老 方法 。 

大 数据 在 金融 行业 应 用 范围 较 广 ， 典 型 的 案例 有 花旗 银行 利用 IBM 沃 森 电脑 为 财富 管理 
客户 推荐 产品 ， 美 国 银行 利用 客户 点 击 数 据 集 为 客户 提供 特色 服务 ， 如 有 竞争 的 信用 额度 ; 
招商 银行 利用 客户 刷卡 、 存 取款 、 电 子 银行 转账 、 微 信 评论 等 行为 数据 进行 分 析 ， 每 周 给 客 
户 发 送 针 对 性 广告 信息 ， 里 面 有 顾客 可 能 感 兴趣 的 产品 和 优惠 信息 。 

可 见 ， 大 数据 在 金融 行业 的 应 用 可 以 总 结 为 以 下 5 个 方面 : 

@ 精准 营销 : 依据 客户 消费 习惯 、 地 理 位 置 、 消 费时 间 进 行 推荐 。 

@ ”风险 管控 : 依据 客户 消费 和 现金 流 提供 信用 评级 或 融资 支持 ， 利 用 客户 社交 行为 记 

录 实 施 信 用 卡 反 欺 诈 。 
@ ”决策 支持 : 利用 决策 树 技术 抵押 贷款 管理 ， 利 用 数据 分 析 报告 实施 产业 信贷 风险 控 
制 。 

@@ ”效率 提升 : 利用 金融 行业 全 局 数据 了 解 业务 运营 薄弱 点 ， 利 用 大 数据 技术 加 快 内 部 

数据 处 理 速 度 。 

@ ”产品 设计 : 利用 大 数据 计算 技术 为 财富 客户 推荐 产品 ， 利 用 客户 行为 数据 设计 满足 

客户 需求 的 金融 产品 。 

4. 零售 大 数据 ， 让 企业 最 懂 消 费 者 

零售 行业 大 数据 应 用 有 两 个 层面 :一 个 层面 是 零售 行业 可 以 了 解 客户 消费 喜好 和 趋势 ， 
进行 商品 的 精准 营销 ， 降 低 营销 成 本 。 另 一 层面 是 依据 客户 购买 产品 ， 为 客户 提供 可 能 购买 
的 其 他 产品 ， 扩 大 销售 额 ， 也 属于 精准 营销 范畴 。 另 外 ， 零 售 行 业 可 以 通过 大 数据 掌握 未 来 
消费 趋势 ， 有 利于 热 销 商品 的 进货 管理 和 过 季 商 品 的 处 理 。 零 售 行 业 的 数据 对 于 产品 生产 三 
家 是 非常 宝贵 的 ， 零 售 商 的 数据 信息 将 会 有 助 于 资源 的 有 效 利用 ， 降 低产 能 过 剩 ， 厂 商 依据 
零售 商 的 信息 按 实际 需求 进行 生产 ， 减 少 不 必 要 的 生产 浪费 。 

未 来 考验 零售 企业 的 不 再 只 是 零 供 关系 的 好 坏 ， 而 是 要 看 挖掘 消费 者 需求 ， 以 及 高 效 整 
合 供应 链 满足 其 需求 的 能 力 ， 因 此 信息 科技 技术 水 平 的 高 低 成 为 获得 竞争 优势 的 关键 要 素 。 
不 论 是 国际 零售 巨头 ， 还 是 本 土 零售 品牌 ， 要 想 项 住 日 渐 微 薄 的 利润 率 带 来 的 压力 ， 在 这 片 
红海 中 立 于 不 败 之 地 ， 就 必须 思考 如 何 拥抱 新 科技 ， 并 为 顾客 们 带 来 更 好 的 消费 体验 。 

想象 一 下 这 样 的 场景 ， 当 顾客 在 地 铁 候车 时 ， 墙 上 有 某 一 零售 商 的 巨 幅 数字 屏幕 广告 
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可 以 自由 浏览 产品 信息 ， 对 感 兴趣 的 或 需要 购买 的 商品 用 手机 扫描 下 单 ， 约 定 在 晚 些 时 候 送 
到 家 中 。 而 在 顾客 浏览 商品 并 最 终 选 购 商品 后 ， 商 家 已 经 了 解 顾客 的 喜好 及 个 人 详细 信息 ， 
按 要 求 配 货 并 送 达 顾 客家 中 。 未 来， 甚至 顾客 都 不 需要 有 任何 购买 动作 ， 利 用 之 前 购买 行为 
产生 的 大 数据 ， 当 你 的 沐浴 露 剩 下 最 后 一 滴 时 ， 你 中 意 的 沐浴 露 就 已 送 到 你 的 手 上 ， 而 虽然 
顾客 和 商家 从 未 谋面 ， 但 已 如 朋友 般 熟 识 。 


5. 电 商 大 数据 ， 实 现 精准 营销 法 宝 

电 商 是 最 早 利用 大 数据 进行 精准 营销 的 行业 ， 除 了 精准 营销 ， 电 商 可 以 依据 客户 消费 习 
惯 来 提前 为 客户 备货 ， 并 利用 便利 店 作为 货物 中 转 点 ， 在 客户 下 单 15 分 钟 内 将 货物 送 上 门 ， 
提高 客户 体验 。 马 云 的 菜鸟 网 络 宣称 的 24 小 时 完成 在 中 国境 内 的 送 货 ， 以 及 京东 刘强 东 宣 传 
未 来 京东 将 在 15 分 钟 完 成 送 货 上 门 都 是 基于 客户 消费 习惯 的 大 数据 分 析 和 预测 。 

电 商 可 以 利用 其 交易 数据 和 现金 流 数据 ， 为 其 生态 圈 内 的 商户 提供 基于 现金 流 的 小 额 贷 
款 ， 电 商业 也 可 以 将 此 数据 提供 给 银行 ， 同 银行 合作 为 中 小 企业 提供 信贷 支持 。 由 于 电 商 的 
数据 较为 集中 ， 数 据 量 足够 大 ， 数 据 种 类 较 多 ， 因 此 未 来 电 商 数据 应 用 将 会 有 更 多 的 想象 空 
间 ， 包 括 预 测 流行 趋势 、 消 费 趋势 、 地 域 消费 特点 、 客 户 消费 习惯 、 各 种 消费 行为 的 相关 
度 、 消 费 热点 、 影 响 消费 的 重要 因素 等 。 依 托 大 数据 分 析 ， 电 商 的 消费 报告 将 有 利于 品牌 公 
司 产品 设计 、 生 产 企业 的 库存 管理 和 计划 生产 、 物 流 企业 的 资源 配置 、 生 产 资料 提供 方 产能 
安排 等 ， 有 利于 精细 化 社会 化 大 生产 ， 有 利于 精细 化 社会 的 出 现 。 


6. 农 牧 大 数据 ， 提 供 量 化 生产 参考 

大 数据 在 农业 中 的 应 用 主要 是 指 依据 未 来 商业 需求 的 预测 来 进行 农 牧 产品 生产 ， 降 低 菜 
贱 伤 农 的 概率 。 同 时 大 数据 的 分 析 将 会 更 加 精确 地 预测 未 来 的 天 气 气 候 ， 帮 助 农 牧民 做 好 自 
然 灾害 的 预防 工作 。 大 数据 同时 也 会 帮助 农民 依据 消费 者 消费 习惯 来 决定 增加 哪些 品种 的 种 
植 ， 减 少 哪些 品种 农作物 的 生产 ， 提 高 单位 种 植 面 积 的 产值 ， 有 助 于 快速 销售 农产品 ， 完 成 
资金 回流 。 牧 民 可 以 通过 大 数据 分 析 来 安排 放牧 范围 ， 有 效 利 用 牧场 。 

由 于 农产品 不 容易 保存 ， 因 此 合理 种 植 和 养殖 农产品 十 分 重要 。 如 果 没有 规划 好 ， 容 易 
产生 菜 贱 伤 农 的 悲剧 。 过 去 出 现 的 猪肉 过 剩 、 卷 心 菜 过 剩 、 香 花 过 剩 的 原因 就 是 农 牧 业 没有 
规划 好 。 借 助 于 大 数据 提供 的 消费 趋势 报告 和 消费 习惯 报告 ， 政 府 将 为 农 牧 业 生产 提供 合理 
引导 ， 建 议 依据 需求 进行 生产 ， 避 免 产 能 过 剩 ， 造 成 不 必要 的 资源 和 社会 财富 浪费 。 农 业 关 
乎 国计民生 ， 科 学 的 规划 将 有 助 于 社会 整体 效率 提升 。 大 数据 技术 可 以 帮助 政府 实现 农业 的 
精细 化 管理 ， 实 现 科学 决策 。 在 数据 驱动 下 ， 结 合 无 人 机 技术 ， 农 民 可 以 采集 农产品 生长 信 
息 ， 病 虫害 信息 。 相 对 于 过 去 雇佣 飞机 成 本 将 大 大 降低 ， 同 时 精度 也 将 大 大 提高 。 

7. 交通 大 数据 ,智慧 交通 畅通 出 行 

交通 作为 人 类 行为 的 重要 组 成 和 重要 条 件 之 一 ， 对 于 大 数据 的 感知 也 是 最 急迫 的 。 近 年 
来 ， 我 国 的 智能 交通 已 实现 了 快速 发 展 ， 许 多 技术 手段 都 达到 了 国际 领先 水 平 。 但 是 ， 问 题 
和 困境 也 非常 突出 ， 从 各 个 城市 的 发 展 状况 来 看 ， 智 能 交通 的 潜在 价值 还 没有 得 到 有 效 控 
掘 : 对 交通 信息 的 感知 和 收集 有 限 ， 对 存在 于 各 个 管理 系统 中 的 海量 的 数据 无 法 共享 运用 、 
有 效 分 析 ， 对 交通 态势 的 研判 预测 乏力 ， 对 公众 的 交通 信息 服务 很 难 满足 需求 。 这 虽然 有 各 
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地 在 建设 理念 、 投 入 上 的 差异 ， 但 是 整体 上 智能 交通 的 现状 是 效率 不 高 ， 智 能 化 程度 不 够 ， 
使 得 很 多 先进 技术 设备 发 挥 不 了 应 有 的 作用 ， 也 造成 了 大 量 投入 上 的 资金 浪费 。 这 其 中 很 重 
要 的 问题 是 小 数据 时 代 带 来 的 硬 伤 : 从 模拟 时 代 带 来 的 管理 思想 和 技术 设备 只 能 进行 一 定 范 
围 的 分 析 ， 而 管理 系统 的 那些 关系 型 数据 库 只 能 刻板 地 分 析 特 定 的 关系 ， 对 于 海量 数据 尤其 
是 半 结 构 、 非 结构 数据 无 能 为 力 。 

尽管 现在 已 经 基本 实现 了 数字 化 ， 但 是 数字 化 和 数据 化 还 根本 不 是 一 回 事 ， 只 是 局 部 地 
提高 了 采集 、 存 储 和 应 用 的 效率 ， 本 质 上 并 没有 太 大 的 改变 。 而 大 数据 时 代 的 到 来 必然 带 来 
破解 难题 的 重大 机 遇 。 大 数据 必然 要 求 我 们 改变 小 数据 条 件 下 一 味 地 精确 计算 ， 而 是 更 好 地 
面 对 混杂 ， 把 握 宏观 态势 ， 大 数据 必然 要 求 我 们 不 再 热衷 因果 关系 而 是 相关 关系 ， 使 得 处 理 
海量 非 结 构 化 数据 成 为 可 能 ， 也 必然 促使 我 们 努力 把 一 切 事物 数据 化 ， 最 终 实现 管理 的 便捷 
高 效 。 

目前 ， 交 通 的 大 数据 应 用 主要 在 两 个 方面 : 一 方面 可 以 利用 大 数据 传感器 数据 来 了 解 车 
辆 通行 密度 ， 合 理 进行 道路 规划 ， 包 括 单行 线路 规划 ; 另 一 方面 可 以 利用 大 活 数据 来 实现 即 
时 信号 灯 调 度 ， 提 高 已 有 线路 运行 能 力 。 科 学 地 安排 信号 灯 是 一 个 复杂 的 系统 工程 ， 必 须 利 
用 大 数据 计算 平台 才能 计算 出 一 个 较为 合理 的 方案 。 科 学 的 信号 灯 安 排 将 会 提高 30% 左 右 已 
有 道路 的 通行 能 力 。 在 美国 ， 政 府 依据 某 一 路 段 的 交通 事故 信息 来 增设 信号 灯 ， 降 低 了 50% 
以 上 的 交通 事故 率 。 机 场 的 航班 起 降 依靠 大 数据 将 会 提高 航班 管理 的 效率 ， 航 空 公司 利用 大 
数据 可 以 提高 上 座 率 ， 降 低 运 行 成 本 。 铁 路 利用 大 数据 可 以 有 效 安 排 客 运 和 货运 列车 ， 提 高 
效率 、 降 低 成 本 。 


8. 教育 大 数据 ， 建 立 因材施教 系统 工程 

随 着 技术 的 发 展 ， 信 息 技 术 已 在 教育 领域 有 了 越 来 越 广 泛 的 应 用 。 考 试 、 课 堂 、 师 生 互 
动 、 校 园 设备 使 用 、 家 校 关系 等 只 要 技术 达到 的 地 方 ， 各 个 环节 都 被 数据 包 于 。 

在 课堂 上 ， 数 据 不 仅 可 以 帮助 改善 教育 教学 ， 在 重大 教育 决策 制定 和 教育 改革 方面 ， 大 
数据 更 有 用 武之 地 。 美 国 利用 数据 来 诊断 处 在 辍学 危险 期 的 学 生 、 探 索 教 育 开支 与 学 生 学 习 
成 绩 提 升 的 关系 、 探 索 学 生 缺 课 与 成 绩 的 关系 。 举 一 个 比较 有 趣 的 例子 ， 教 师 的 高 考 成 绩 和 
所 教学 生 的 成 绩 有 关 吗 ? 究竟 如 何 ， 不 妨 借助 数据 来 看 。 比 如 美国 某 州 公立 中 小 学 的 数据 分 
析 显 示 ， 在 语文 成 绩 上 ， 教 师 高 考分 数 和 学 生成 绩 呈 现 显 著 的 正 相关 。 也 就 是 说 ， 教 师 的 高 
考 成 绩 与 他 们 现在 所 教 语文 课 上 的 学 生 学 习 成 绩 有 很 明显 的 关系 ， 教 师 的 高 考 成 绩 越 好 ， 学 
生 的 语文 成 绩 也 越 好 。 这 个 关系 让 我 们 进一步 探讨 其 背后 真正 的 原因 。 其 实 ， 教 师 高 考 成 绩 
高 低 某 种 程度 上 是 教师 的 某 个 特点 在 起 作用 ， 而 正 是 这 个 特点 对 教 好 学 生起 着 至 关 重 要 的 作 
用 ， 教 师 的 高 考分 数 可 以 作为 挑选 教师 的 一 个 指标 。 如 果 有 了 充分 的 数据 ， 便 可 以 发 抉 更 多 
的 教师 特征 和 学 生成 绩 之 间 的 关系 ， 从 而 为 挑选 教师 提供 更 好 的 参考 。 

大 数据 还 可 以 帮助 家 长 和 教师 甄别 出 孩子 的 学 习 差距 和 有 效 的 学 习 方法 。 比 如 ， 美 国 的 
麦 格 劳 - 希 尔 教育 出 版 集团 就 开发 出 了 一 种 预测 评估 工具 ， 帮 助 学 生 评估 他 们 已 有 的 知识 和 达 
标 测验 所 需 程度 的 差距 ， 进 而 指出 学 生 有 待 提高 的 地 方 。 评 估 工 具 可 以 让 教师 跟踪 学 生 学 习 
情况 ， 从 而 找到 学 生 的 学 习 特点 和 方法 。 有 些 学 生 适 合 按部就班 ， 有 些 则 更 适合 图 式 信息 和 
整合 信息 的 非 线 性 学 习 。 这 些 都 可 以 通过 大 数据 搜集 和 分 析 很 快 识别 出 来 ， 从 而 为 教育 教学 
提供 坚实 的 依据 。 
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在 国内 尤其 是 北京 、 上 海 、 广 东 等 城市 ， 大 数据 在 教育 领域 就 已 有 了 非常 多 的 应 用 ， 辟 
如 像 莫 课 、 在 线 课程 、 翻 转 课堂 等 ， 其 中 就 应 用 了 大 量 的 大 数据 工具 。 

毫 无 疑问 ， 在 不 远 的 将 来 ， 无 论 是 针对 教育 管理 部 门 ， 还 是 校长 、 教 师 ， 以 及 学 生 和 家 
长 ， 都 可 以 得 到 针对 不 同 应 用 的 个 性 化 分 析 报告 。 通 过 大 数据 的 分 析 来 优化 教育 机 制 ， 也 可 
以 做 出 更 科学 的 决策 ， 这 将 带 来 潜在 的 教育 革命 。 不 和 久 的 将 来 个 性 化 学 习 终 端 ， 将 会 更 多 地 
融入 学 习 资 源 云 平台 ， 根 据 每 个 学 生 的 不 同 兴趣 爱好 和 特长 ， 推 送 相关 领域 的 前 沿 技术 、 资 
讯 、 资 源 乃 至 未 来 职业 发 展 方向 ， 等 等 ， 并 贯穿 每 个 人 终身 学 习 的 全 过 程 。 


9. 体育 大 数据 ， 提升 训练 指标 创造 佳绩 


从 《点 球 成 金 》 这 部 电影 开始 ， 体 育 界 的 有 识 之 士 们 终于 找到 了 向 往 已 久 的 道路 ， 那 就 
是 如 何 利用 大 数据 来 让 团队 发 挥 最 佳 水 平 。 从 足球 到 篮球 ， 数 据 似乎 成 为 赢得 比赛 甚至 是 奖 
杯 的 金 钥 匙 。 

大 数据 对 于 体育 的 改变 可 以 说 是 方方面面 ， 从 运动 员 本 身 来 讲 ， 可 穿戴 设备 收集 的 数据 
让 自己 更 了 解 身体 状况 ， 从 媒体 评论 员 来 讲 ， 可 通过 大 数据 提供 的 数据 更 好 地 解说 比赛 ， 分 
析 比 赛 。 数 据 已 经 通过 大 数据 分 析 转 化 成 了 洞察 力 ， 为 体育 竞技 中 的 胜利 增加 筹码 ， 也 为 身 
处 世界 各 地 的 体育 爱好 者 随时 随地 观赏 比赛 提供 了 个 性 化 的 体验 。 

尽管 鲜 有 职业 网 球 选 手 愿 意 公 开 承 认 自 己 利用 大 数据 来 制定 比赛 策划 和 战术 ， 但 几乎 每 
-个 球员 都 会 在 比赛 前 后 使 用 大 数据 服务 。 有 教练 表示 : “在 球场 上 ， 比 赛 的 输赢 取决 于 比 
赛 策略 和 战术 ， 以 及 赛场 上 连续 对 打 期 间 的 快速 反应 和 决策 ， 但 这 些 细节 转瞬 即 逝 ， 所 以 数 
据 分 析 成 为 一 场 比赛 最 关键 的 部 分 。 对 于 那些 拥护 并 利用 大 数据 进行 决策 的 选手 而 言 ， 他 们 
毋庸 置疑 地 将 赢得 足够 竞争 优势 ”。 


10. 环保 大 数据 ,预警 雾 才 


2012 年 7 月 21 日 北京 遭遇 特大 暴雨 ， 在 一 天 之 内 ， 平 均 降雨 量 达 164 毫米 ， 也 是 北京 
市 61 年 以 来 最 大 规模 暴雨 ， 此 次 暴雨 因 来 势 凶 猛 给 广大 市 民生 活 带 来 巨大 影响 。 其 实 ， 摊 上 
这 种 事 儿 ， 最 主要 的 还 是 需要 气象 部 门 及 时 、 准 确 地 做 出 预警 ， 并 协同 其 他 运营 商 部 门 ， 将 
这 种 预警 信息 第 一 时 间 下 发 到 北京 市 民 〈 包 括 在 京 旅行 的 人 士 ) 。 也 正 是 如 此 ， 前 年 的 那 场 
暴雨 不 仅 暴露 出 了 管理 工作 上 的 漏洞 ， 也 引起 了 业内 人 士 关于 一 场 “ 大 数据 ”的 探讨 。 

气象 对 社会 的 影响 涉及 方方面面 。 传 统 上 依赖 气象 的 主要 是 农业 、 林 业 和 水 运 等 行业 部 
门 ， 而 如 今 ， 气 象 例 然 成 为 21 世纪 社会 发 展 的 资源 ， 并 支持 定制 化 服务 满足 各 行 各 业 用 户 需 
要 。 借 助 于 大 数据 技术 ， 天 气 预报 的 准确 性 和 实效 性 将 会 大 大 提高 ， 预 报 的 及 时 性 将 会 大 大 
提升 ， 同 时 对 于 重大 自然 灾害 ， 例 如 龙卷风 ， 通 过 大 数据 计算 平台 ， 人 们 将 会 更 加 精确 地 了 
解 其 运动 轨迹 和 危害 的 等 级 ， 有 利于 帮助 人 们 提高 应 对 自然 灾害 的 能 力 。 天 气 预报 的 准确 度 
的 提升 和 预测 周期 的 延长 将 会 有 利于 农业 生产 的 安排 。 

尤其 是 进入 秋冬 季 以 来 ， 我 国 多 个 城市 爆发 筋 者 天 气 ， 空 气 污染 严重 。 随 着 PM2.5 对 于 
人 体 健康 的 危害 日 益 被 公众 熟知 ， 人 们 对 于 “和 雾 考 假 ”的 呼声 也 越 来 越 高 。 有 人 调 件 ， 重 度 
污染 天 走 在 上 班 路 上 就 是 一 台 “ 人 肉 吸尘器 ”。 

由 此 看 来 ， 依 靠 大 数据 分 析 北 京 或 其 他 城市 空气 污染 的 形成 及 对 策 ， 任 重 道 远 。 一 是 数 
据 的 来 源 。 高 耗 能 企业 的 生产 规模 、 排 放量 这 些 数据 是 否 层 层 上 报 ， 准 确 统计 ? 掌握 此 数据 
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的 部 门 是 否 能 向 社会 公开 ? 北京 500 万 辆 汽车 所 加 汽油 到 底 有 哪些 成 分 ， 产 生 的 尾气 对 空气 
污染 指数 的 “贡献 ” 率 到 底 多 大 ? 二 是 要 冲破 数据 挖掘 分 析 应 用 的 技术 壁垒 ， 当 然 前 提 就 是 


数据 公开 。 
在 美国 NOAA ( 


国家 海洋 茎 大 气 总 团 ) 其 实 早 就 在 使 用 大 数据 业务 。 每 天 通过 卫星 、 船 





只 、 飞 机 、 浮 标 、 传 感 器 等 收集 超过 35 亿 份 观察 数据 。 收 集 完毕 后 ，NOAA 会 汇总 大 气 数 
据 、 海 洋 数 据 ， 以 及 地 质数 据 ， 进 行 直接 测定 ， 绘 制 出 复杂 的 高 保 真 预测 模型 ， 将 其 提供 给 
NWS (国家 气象 局 ) 做 出 气象 预报 的 参考 数据 。 目 前 ，NOAA 每 年 新 增 管理 的 数据 量 就 高 达 














30PB (1PB=1024TB) 
下 5 


11. 食品 大 数据 ， 


。 由 NWS 生成 的 最 终 分 析 结果 ， 就 呈现 在 日 常 的 天 气 预报 和 预警 报道 


舌尖 上 安全 保障 


民 以 食 为 天 ， 食 品 安全 问题 一 直 是 国家 的 重点 关注 问题 ， 关 系 着 人 们 的 身体 健康 和 国家 
安全 。 近 几 年 ， 毒 胶 圳 、 锅 大 米 、 瘦 肉 精 、 洋 奶粉 等 食品 安全 事件 不 断 考验 着 消费 者 的 承受 
力 ， 让 消费 者 对 食品 安全 产生 了 担忧 。 

近 几 年 外 国旅 游 者 减少 了 到 中 国旅 游 ， 进 口 食品 大 幅度 增加 ， 这 其 中 一 个 主要 原因 就 是 
食品 安全 问题 。 随 着 科学 技术 和 生活 水 平 的 不 断 提高 ， 食 品 添 加 剂 及 食品 品种 越 来 越 多 ， 传 
统 手 段 难以 满足 当前 复杂 的 食品 监管 需求 ， 从 不 断 出 现 的 食品 安全 问题 来 看 ， 食 品 监管 成 了 


食品 安全 的 棘手 问题 。 


此 刻 ， 通 过 大 数据 管理 将 海量 数据 聚合 在 一 起 ， 将 离散 的 数据 需求 聚 


合 能 形成 数据 长 尾 ， 从 而 满足 传统 中 难以 实现 的 需求 。 在 数据 驱动 下 ， 采 集 人 们 在 互联 网 上 
提供 的 举报 信息 ， 国 家 可 以 掌握 部 分 乡村 和 城市 的 死角 信息 ， 挖 出 不 法 加 工 点 ， 提 高 执法 透 


明度 ， 降 低 执 法 成 本 。 
时 进行 监督 检查 ， 第 





国家 可 以 参考 医院 提供 的 就 诊 信息 ， 分 析出 涉及 食品 安全 的 信息 ， 及 
-时 间 进 行 处 理 ， 降 低 已 有 不 安全 食品 的 危害 。 参 考 个 体 在 互联 网 的 搜 


索 信 息 ， 掌 握 流行 疾病 在 某 些 区 域 和 季节 的 爆发 趋势 ， 及 时 进行 干预 ， 降 低 其 流行 危害 。 政 
府 可 以 提供 不 安全 食品 厂商 信息 ， 不 安全 食品 信息 ， 帮 助人 们 提高 食品 安全 意识 。 

当然 ， 有 专业 人 士 认 为 食品 安全 涉及 从 田 头 到 餐桌 的 每 一 个 环节 ， 需 要 覆盖 全 过 程 的 动 
态 监测 才能 保障 食品 安全 ， 以 稻米 生产 为 例 ， 产 地 、 品 种 、 土 壤 、 水 质 、 病 虫害 发 生 、 农 药 
种 类 与 数量 、 人 化肥、 收获、 储藏、 加工、 运输、 销售 等 环节 ， 无 一 不 影响 稻米 安全 状况 ， 通 
过 收集 、 分 析 各 环节 的 数据 ， 可 以 预测 某 产地 将 收获 的 稻谷 或 生产 的 稻米 是 否 存 在 安全 隐 


患 。 


大 数据 不 仅 能 带 来 商业 价值 ， 亦 能 产生 社会 价值 。 随 着 信息 技术 的 发 展 ， 食 品 监管 也 面 
临 着 众多 的 各 种 类 型 的 海量 数据 ， 如 何 从 中 提取 有 效 数 据 成 为 关键 所 在 。 可 见 ， 大 数据 管理 
是 一 项 巨大 挑战 ， 一 方面 要 及 时 提取 数据 以 满足 食品 安全 监管 需求 ， 另 一 方面 需 在 数据 的 潜 
在 价值 与 个 人 隐私 之 间 进 行 平衡 。 相 信 大 数据 管理 在 食品 监管 方面 的 应 用 ， 可 以 为 食品 安全 
撑 起 一 把 有 力 的 保护 伞 。 


12. 大 数据 令 政 府 调控 和 财政 支出 有 条 不 紊 


政府 利用 大 数据 技术 可 以 了 解 各 地 区 的 经 济 发 展 情况 、 各 产业 发 展 情况 、 消 费 支出 和 产 
品 销售 情况 ， 依 据 数据 分 析 结果 ， 科 学 地 制定 宏观 政策 ， 平 衡 各 产业 发 展 ， 避 免 产 能 过 剩 ， 
有 效 利用 自然 资源 和 社会 资源 ， 提 高 社会 生产 效率 。 大 数据 还 可 以 帮助 政府 进行 监控 自然 资 
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源 的 管理 ， 无 论 是 国土 资源 、 水 资源 、 矿 产 资源 、 能 源 等 ， 大 数据 通过 各 种 传感器 来 提高 其 
管理 的 精准 度 。 同 时 大 数据 技术 也 能 帮助 政府 进行 支出 管理 ， 透 明 合理 的 财政 支出 将 有 利于 
提高 公信 力 和 监督 财政 支出 。 

大 数据 及 大 数据 技术 带 给 政府 的 不 仅仅 是 效率 提升 、 科 学 决策 、 精 细 管 理 ， 更 重要 的 是 
数据 治国 、 科 学 管理 的 意识 改变 ， 未 来 大 数据 将 会 从 各 个 方面 来 帮助 政府 实施 高 效 和 精细 化 
管理 。 政 府 运作 效率 的 提升 、 决 策 的 科学 客观 、 财 政 支 出 合理 透明 都 将 大 大 提升 国家 整体 实 
力 ， 成 为 国家 竞争 优势 。 大 数据 带 个 国家 和 社会 的 益处 将 会 具有 极 大 的 想象 空间 。 


13. 和 与 情 监控 大 数据 ， 打 破 数 据 边界 绘制 全 景 视图 


美国 密歇根 大 学 研究 人 员 就 设计 出 一 种 利用 “超级 计算 机 以 及 大 量 数据 ”来 帮助 警方 定 
位 那些 最 易 受到 不 法 分 子 侵扰 片区 的 方法 。 具 体 做 法 是 ， 研 究 人 员 通 过 大 量 的 多 类 型 数据 
《从 和 人口 统计 数据 到 毒品 犯罪 数据 到 各 区 域 所 出 售 酒 的 种 类 、 治 安 状况 、 流 动人 口 数据 
等 ) ， 创 建 一 张波 士 顿 犯罪 高 发 地 区 热点 图 。 同 时 ， 还 将 相 邻 片区 等 各 种 因素 加 入 到 数据 模 
型 中 ， 并 根据 历史 犯罪 记录 和 地 点 统计 不 断 修正 所 得 出 的 预测 数据 。 

国家 正在 将 大 数据 技术 用 于 和 舆情 监 控 ， 其 收集 到 的 数据 除了 解 民 众 诉求 、 降 低 群 体 事件 
之 外 ， 还 可 以 用 于 犯罪 管理 。 大 量 的 社会 行为 正 逐 步 走 向 互联 网 ， 人 们 更 愿意 借助 于 互联 网 
平台 来 表述 自己 的 想法 和 宣泄 情绪 。 社 交 媒 体 和 朋友 圈 正 成 为 追踪 人 们 社会 行为 的 平台 ， 正 
能 量 的 东西 有 ， 负 能 量 的 东西 也 不 少 。 一 些 好 心 人 通过 微 博 来 帮助 别人 寻找 走失 的 亲人 或 提 
供 可 能 被 拐卖 人 口 的 信息 ， 这 些 都 是 社会 群体 互助 的 例子 。 国 家 可 以 利用 社交 媒体 分 享 的 图 
片 和 交流 信息 ， 来 收集 个 体 情绪 信息 ， 预 防 个 体 犯罪 行为 和 反 社 会 行为 。 最 近 警方 通过 微 博 
信息 抓获 了 聚众 吸毒 的 人 ， 处 罚 了 虐待 小 孩 的 家 长 。 

大 数据 技术 的 发 展 带 来 企业 经 营 决策 模式 的 转变 ， 驱 动 着 行业 变革 、 衍 生出 新 的 商机 和 
发 展 契 机 。 驾 驭 大 数据 的 能 力 已 被 证 实 为 领军 企业 的 核心 竞争 力 ， 这 种 能 力 能 够 帮助 企业 打 
破 数据 边界 ， 绘 制 企 业 运营 全 景 视图 ， 做 出 最 优 的 商业 决策 和 发 展 战略 。 其 实 ， 不 论 是 哪个 
行业 的 大 数据 分 析 和 应 用 场景 ， 可 以 看 到 一 个 典型 的 特点 还 是 无 法 离开 以 人 为 中 心 所 产生 的 
各 种 用 户 行为 、 用 户 业务 活动 和 交易 记录 、 用 户 社交 数据 ， 这 些 核心 数据 的 相关 性 再 加 上 可 
感知 设备 的 智能 数据 采集 就 构成 了 一 个 完整 的 大 数据 生态 环境 。 


1.3.3 ”大 数据 应 用 平台 方案 案例 

大 数据 的 应 用 在 当前 的 互联 网 领域 尤其 以 企业 为 主 ， 企 业 成 为 大 数据 应 用 的 主体 。 大 数 
据 真能 改变 企业 的 运作 方式 吗 ?答案 毋庸 置疑 是 肯定 的 。 随 着 企业 开始 利用 大 数据 ， 我 们 每 天 
都 会 看 到 大 数据 新 的 奇妙 的 应 用 ， 帮助 人 们 真正 从 中 获 益 。 大 数据 的 应 用 已 广泛 深入 我 们 生 
活 的 方方面面 ， 涵 盖 医 疗 、 交 通 、 人 金融、 教育、 体育、 零售 等 各 行 各 业 。 

大 数据 应 用 的 关键 ， 也 是 其 必要 条 件 ， 就 在 于 “IT” 与 “经 营 ” 的 融合 ， 当 然 ， 这 
里 的 经 营 的 内 涵 可 以 非常 广泛 ， 小 至 一 个 零售 门店 的 经 营 ， 大 至 一 个 城市 的 经 营 。 以 下 
是 关于 各 行 各 业 不 同 的 组 织 机 构 在 大 数据 应 用 案例 的 举例 。 如 图 1-5 所 示 是 大 数据 应 用 
案例 行业 占 比 。 
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大 数据 应 用 案例 排行 榜 TOP100 分 行业 汇总 占 比 





图 1-5 大 数据 应 用 案例 行业 占 比 
以 下 是 《互联 网 周刊 》 发 布 的 《大 数据 应 用 案例 TOP100》 部 分 例 举 。 


1. 深圳 市 儿童 医院 成 功 部 署 1BM 集成 平台 与 商业 智能 分 析 系 统 
IBM 利用 其 行业 领先 的 大 数据 与 分 析 技 术 ， 支 持 深圳 市 儿童 医院 搭建 信息 集成 平台 ， 整 
合 原 有 分 散在 多 系统 中 的 海量 数据 ， 实 现 各 部 门 的 信息 共享 ， 同 时 通过 商业 智能 分 析 对 集成 
数据 进行 深入 挖掘 ， 为 医院 各 部 门人 员 的 科学 决策 提供 全 面 的 辅助 ， 提 升 医院 的 服务 水 平和 


管理 能 力 。 


2. Informatica 帮助 紫金 农 商 银行 深 挖 数据 价值 
紫金 农 商 银行 ODS 数据 仓库 项 目 建设 使 用 Informatica 产品 完成 数据 的 加 载 、 清 洗 、 转 
换 工 作 显 得 尤为 简单 ， 图 形 化 、 流 程 化 设计 使 维护 人 员 能 够 快速 、 顺 畅 地 操作 ， 即 使 数据 源 
结构 发 生变 化 ， 也 不 会 像 以 前 必须 修改 大 量 的 程序 代码 ， 只 需要 在 PowerCenter 中 配置 一 下 


即 可 。 


3. 华为 大 数据 一 体 机 服务 于 北大 重点 实验 室 
经 过 大 量 的 前 期 调查 、 比 较 和 分 析 准 备 工 作 ， 北 大 重点 实验 室 选择 了 华为 基于 高 性 能 服 
务 器 RH5885 V2 的 HANA 数据 处 理 平台 。HANA 提供 的 对 大 量 实时 业务 数据 进行 快速 查询 
和 分 析 以 及 实时 数据 计算 等 功能 ， 在 很 大 程度 上 得 益 于 华为 RH5885 V2 服务 器 的 高 可 靠 、 高 
性 能 和 高 可 用 性 的 支撑 。 


4. IBM 携手 汉 端 科技 为 飞 乱 乳 业 打造 全 产业 链 可 追溯 体系 


IBM、 汉 端 科技 与 中 





国 飞 锥 乳业 联合 宣布 ， 通 过 利用 IBM 业界 领先 的 全 面 大 数据 与 分 析 


能 力 和 汉 端 科技 在 商业 智能 领域 丰富 的 行业 经 验 ， 飞 稚 乳 业 实 现 了 产品 的 可 追溯 与 食品 安全 
的 数字 化 管理 ， 完 成 了 系统 数字 化 、 透 明 化、 服务 化 的 升级 。 


5. 浪潮 大 数据 平台 大 大 提升 了 济南 的 警 务工 作 能 力 


浪潮 帮助 济南 公安 局 在 搭建 云 数据 中 心 的 基础 上 构建 了 大 数据 平台 ， 


以 开展 行为 轨迹 分 


析 、 社 会 关系 分 析 、 生 物 特 征 识别 、 音 视频 识别 、 银 行 电信 诈骗 行为 分 析 、 和 与 情 分 析 等 多 种 





大 数据 研判 手段 的 应 








日 ， 为 指挥 决策 、 各 警 种 情报 分 析 、 研 判 提 供 支 持 ， 做 到 上 上 








目 绕 治安 焦点 


能 够 快速 精确 定位 、 及 时 全 面 掌 握 信 息 、 科 学 指挥 调度 警力 和 社会 安保 力量 迅速 解决 问题 。 
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6. 英特尔 携 杭 州 诚 道 科技 构建 智能 交通 

面 对 大 数据 挑战 ， 杭 州 市 和 杭州 诚 道 科技 有 限 公司 紧 密 合作 ， 部 署 了 基于 英特尔 大 数据 
解决 方案 的 诚 道 重点 车 辆 动态 监管 系统 ， 通 过 集中 的 数据 中 心 将 全 市 卡 口 、 电 子 和 警察、 视频 
监控 、 流 量 检 测 设备 、 信 号 机 、 诱 导 设备 等 有 效 地 连接 起 来 ， 从 交通 案件 侦破 能 力 、 交 通 警 
察 对 机 动车 辆 的 监管 能 力 到 利用 关联 车 辆 的 数据 分 析 能 力 ， 都 得 到 了 极 大 提升 。 


7. 步步高 集团 借 Oracle Exadata 大 大 提高 了 IT 投资 回报 率 


步步高 集团 采用 Oracle Exadata 数据 库 云 服务 器 搭建 信息 化 平台 ， 凭 借 Oracle Exadata 数 
据 库 云 服务 器 的 高 扩展 性 、 安 全 性 和 宛 余 性 ， 步 步 高 集团 得 以 在 该 基础 架构 上 运行 一 系列 
Oracle 零售 行业 以 及 Oracle 的 应 用 软件 。 此 外 ， 基 于 Oracle Exadata 的 步步高 IT 新 架构 比 传 
统 架 构 拥 有 更 好 的 性 价 比 ， 最 大 限度 地 增加 了 IT 的 投资 回报 率 。 


8. 华为 Anti-DDoS 助 阿里 巴巴 检测 DDoS 变革 


阿里 巴巴 现 网 多 个 数据 中 心 出 口 都 部 署 了 华为 的 Anti-DDoS 解决 方案 ,平均 每 天 防护 的 
DDoS 攻击 次 数 超过 100 次 ， 每 年 达 数 万 次 ， 峰 值 防 护 的 DDoS 攻击 流量 超过 100Gbps。 如 
今 ，DDoS 攻击 在 阿里 巴巴 安全 工程 师 眼 里 已 经 习以为常 ， 由 华为 Anti-DDoS 方案 自动 调度 
进行 清洗 防护 即 可 。“ 双 十 一 ”期 间 ， 华 为 Anti-DDoS 方案 一 如 既往 地 成 功 防护 了 多 轮 
DDoS 攻击 事件 ， 有 力 保障 了 阿里 巴巴 网 络 交易 的 顺畅 平稳 。 





下 。 亿 。 并 行 计算 简介 


并 行 计算 或 称 平行 计算 是 相对 于 串 行 计 算 来 说 的 。 它 是 一 种 一 次 可 执行 多 个 指令 的 算 
法 ， 目 的 是 提高 计算 速度 以 及 通过 扩大 问题 求解 规模 ， 解 决 大 型 而 复杂 的 计算 问题 。 所 谓 并 
行 计 算 可 分 为 时 间 上 的 并 行 和 空间 上 的 并 行 。 时 间 上 的 并 行 就 是 指 流水 线 技 术 ， 而 空间 上 的 
并 行 则 是 指 用 多 个 处 理 器 并 发 地 执行 计算 。 

并 行 计算 的 定义 : 并 行 计算 (Parallel Computing) 是 指 同时 使 用 多 种 计算 资源 解决 计算 
问题 的 过 程 ， 是 提高 计算 机 系统 计算 速度 和 处 理 能 力 的 一 种 有 效 手段 。 它 的 基本 思想 是 用 多 
个 处 理 器 来 协同 求解 同一 问题 ， 即 将 被 求解 的 问题 分 解 成 若干 个 部 分 ， 各 部 分 均 由 一 个 独立 
的 处 理 机 来 并 行 计算 。 并 行 计算 系统 既 可 以 是 专门 设计 的 、 含 有 多 个 处 理 器 的 超级 计算 机 ， 
也 可 以 是 以 某 种 方式 互 连 的 若干 台 的 独立 计算 机 构成 的 集群 。 通 过 并 行 计 算 集 群 完成 数据 的 
处 理 ， 再 将 处 理 的 结果 返回 给 用 户 。 

为 利用 并 行 计算 ， 通 常 计算 问题 表现 为 以 下 计算 问题 特征 : 

@ ”将 工作 分 离 成 离散 部 分 ， 有 助 于 同时 解决 。 

@ ”随时 并 及 时 地 执行 多 个 程序 指令 。 

@@ 多 计算 资源 下 解决 问题 的 耗 时 要 少 于 单个 计算 资源 下 的 耗 时 。 

并 行 计算 科学 中 主要 研究 的 是 空间 上 的 并 行 问题 。 从 程序 和 算法 设计 人 员 的 角度 来 看 ， 
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并 行 计算 又 可 分 为 数据 并 行 和 任务 并 行 。 一 般 来 说 ， 因 为 数据 并 行 主要 是 将 一 个 大 任务 化 解 
成 相同 的 各 个 子 任务 ， 比 任务 并 行 要 容易 处 理 。 如 图 1-6 所 示 为 问题 的 并 行 求解 过 程 。 


并 行 机 < 映射 物理 问题 
抽象 3 


并 生计 算术 一 TD | 并 行 求解 模型 









































精确 描述 精确 描述 





天 于 并 行 于 要 | 
模型 的 并 行 算法 





图 1-6 问题 的 并 行 求解 过 程 


云 计算 的 萌芽 应 该 从 计算 机 的 并 行 化 开始 ， 并 行 机 的 出 现 是 人 们 不 满足 于 CPU 摩尔 定律 
的 增长 速度 ， 和 希望 把 多 个 计算 机 并 联 起 来 ， 从 而 获得 更 快 的 计算 速度 。 这 是 一 种 很 简单 也 很 
朴素 的 实现 高 速 计算 的 方法 ， 这 种 方法 后 来 被 证 明 是 相当 成 功 的 。 


1 @ 5 Hadoop 介绍 


Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 。 用 户 可 以 在 不 了 解 分 布 
式 底层 细节 的 情况 下 ， 开 发 分 布 式 程序 ， 充 分 利用 集群 的 威力 进行 高 速 运算 和 存储 。 

Hadoop 实现 了 一 个 分 布 式 文件 系统 (Hadoop Distributed File System) ， 简 称 HDFS。 
HDFS 有 高 容错 性 的 特点 ， 并 且 设 计 用 来 部 署 在 低廉 的 〈low-cost) 硬件 上 ， 而 且 它 提供 高 吞 
吐 量 (high throughput) 来 访问 应 用 程序 的 数据 ， 适 合 那些 有 着 超大 数据 集 (large data set) 
的 应 用 程序 。HDFS 放宽 (relax) 了 POSIX 的 要 求 ， 可 以 以 流 的 形式 访问 〈streaming 
access) 文件 系统 中 的 数据 。 

Hadoop 的 框架 最 核心 的 设计 就 是 ， HDFS 和 MapReduce。HDFS 为 海量 的 数据 提供 了 存 
储 ， MapReduce 则 为 海量 的 数据 提供 了 计算 。 

Hadoop 是 最 受 欢迎 的 在 Internet 上 对 搜索 关键 字 进 行内 容 分 类 的 工具 ， 但 它 也 可 以 解 
决 许多 要 求 极 大 伸缩 性 的 问题 。 例 如 ， 如 果 你 要 grep 一 个 10TB 的 巨型 文件 ， 会 出 现 什么 
情况 ?在 传统 的 系统 上 ， 这 将 需要 很 长 的 时 间 ; 但 是 Hadoop 在 设计 时 就 考虑 到 这 些 问 题 ， 
采用 并 行 执行 机 制 ， 因 此 能 大 大 提高 效率 。 

Hadoop 原本 来 自 于 Google 一 款 名 为 MapReduce 的 编程 模型 包 。Google 的 MapReduce 
框架 可 以 把 一 个 应 用 程序 分 解 为 许多 并 行 计算 指令 ， 跨 大 量 的 计算 节点 运行 非常 巨大 的 数据 
集 。 使 用 该 框架 的 一 个 典型 例子 就 是 在 网 络 数据 上 运行 的 搜索 算法 。Hadoop 最 初 只 与 网 页 索 
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引 有 关 ， 迅 速 发 展 成 为 分 析 大 数据 的 领先 平台 。 


目前 有 很 多 公司 开始 提供 基于 Hadoop 的 商业 软件 、 支 持 、 服 务 以 及 培训 。Cloudera 是 
一 家 美国 的 企业 软件 公司 ， 该 公司 在 2008 年 开始 提供 基于 Hadoop 的 软件 和 服务 。GoGrid 是 
一 家 云 计算 基础 设施 公司 ， 在 2012 年 ， 该 公司 与 Cloudera 合作 加 速 了 企业 采纳 基于 Hadoop 
应 用 的 步伐 。Dataguise 公司 是 一 家 数据 安全 公司 ， 同 样 在 2012 年 该 公司 推出 了 一 款 针 对 
Hadoop 的 数据 保护 和 风险 评估 。 

Hadoop 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 软件 框架 ，Hadoop 以 一 种 可 靠 、 高 
效 、 可 伸缩 的 方式 进行 数据 处 理 。 

Hadoop 是 可 靠 的 ， 因 为 它 假设 计算 元 素 和 存储 会 失败 ， 因 此 它 维护 多 个 工作 数据 副 
本 ， 确 保 能 够 针对 失败 的 节点 重新 分 布 处 理 。 

Hadoop 是 高 效 的 ， 因 为 它 以 并 行 的 方式 工作 ， 通 过 并 行 处 理 加 快 处 理 速度 。 

Hadoop 还 是 可 伸缩 的 ， 能 够 处 理 PB 级 数据 。 

此 外 ，Hadoop 依赖 于 社区 服务 ， 因 此 它 的 成 本 比较 低 ， 任 何人 都 可 以 使 用 。 

Hadoop 是 一 个 能 够 让 用 户 轻 松 架构 和 使 用 的 分 布 式 计算 平台 。 用 户 可 以 轻松 地 在 
Hadoop 上 开发 和 运行 处 理 海量 数据 的 应 用 程序 。 它 主要 有 以 下 几 个 优点 : 


@ ”高 可 靠 性 。Hadoop 按 位 存储 和 处 理 数 据 的 能 力 值得 人 们 信 闲 。 

@ ”高 扩展 性 。Hadoop 是 在 可 用 的 计算 机 集 徐 间 分 配 数据 并 完成 计算 任务 的 ， 这 些 集 徐 
可 以 方便 地 扩展 到 数 以 千 计 的 节点 中 。 

@ 高 效 性 。Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ， 并 保证 各 个 节点 的 动态 平衡 ， 因 
此 处 理 速 度 非常 快 。 

@ 高 容错 性 。Hadoop 能 够 自动 保存 数据 的 多 个 副本 ， 并 且 能 够 自动 将 失败 的 任务 重新 
分 配 。 

@。 低 成 本 。 与 一 体 机 、 商 用 数据 仓库 以 及 QlikView、Yonghong Z-Suite 等 数据 集 市 相 
比 ，hadoop 是 开源 的 ， 项 目的 软件 成 本 因此 会 大 大 降低 。 


Hadoop 带 有 用 Java 语言 编写 的 框架 ， 因 此 运行 在 Linux 生产 平台 上 是 非常 理想 的 。 
Hadoop 上 的 应 用 程序 也 可 以 使 用 其 他 语言 编写 ， 比 如 C++。 

Hadoop 在 大 数据 处 理应 用 中 广泛 应 用 得 益 于 其 自身 在 数据 提取 、 变 形 和 加 载 (ETL) 方 
面 上 的 天 然 优势 。Hadoop 的 分 布 式 架构 ， 将 大 数据 处 理 引擎 尽 可 能 地 靠近 存储 ， 对 例如 像 
ETL 这 样 的 批 处 理 操作 相对 合适 ， 因 为 类 似 这 样 操作 的 批 处 理 结 果 可 以 直接 走向 存储 。 
Hadoop 的 MapReduce 功能 实现 了 将 单个 任务 打 碎 ， 并 将 碎片 任务 (Map) 发送 到 多 个 节点 
上 ， 之 后 再 以 单个 数据 集 的 形式 加 载 (Reduce) 到 数据 仓库 里 。 图 1-7 给 出 了 Hadoop 分 布 式 
核心 系统 框架 。 
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Intel H: Manager 
安装 、 部 署 、 配 置 、 监 控 、 警 告 和 访问 控制 








MapReduce 
分 布 式 计算 框架 








HDFS 
分 布 式 文件 系统 








图 1-7 Hadoop 分 布 式 核心 系统 框架 


Hadoop 由 许多 元 素 构成 。 其 最 底部 是 Hadoop Distributed File System (HDFS) ， 它 存 
储 Hadoop 集群 中 所 有 存储 节点 上 的 文件 。HDFS (对 于 本 文 ) 的 上 一 层 是 MapReduce 引 
擎 ， 该 引擎 由 JobTrackers 和 TaskTrackers 组 成 ， 以 及 数据 仓库 工具 Hive 和 分 布 式 数据 库 
HBase， 基 本 涵盖 了 Hadoop 分 布 式 平台 的 所 有 技术 核心 。 


1 .0 ”本 章 小 结 


本 章 从 大 数据 处 理 特 点 出 发 ， 概 述 了 大 数据 来 源 、 应 用 价值 、 技 术 特 点 和 相关 领域 技 
术 。 在 应 用 方面 以 案例 为 切合 点 介绍 了 不 同 场景 下 的 大 数据 应 用 。 最 后 简要 描述 了 大 数据 处 
理 的 利器 Hadoop。 
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云 计算 一 般 被 定义 为 在 网 络 环境 下 计算 资源 的 交付 和 使 用 方式 ， 用 户 通过 网 络 按 需 、 易 
扩展 的 方式 获得 所 需 服 务 。 要 实现 这 个 目标 ， 需 要 5 个 最 为 关键 的 特征 或 者 说 条 件 来 支撑 : 
足够 的 宽带 网 络 、 资 源 “ 池 化 ”、 按 需 伸缩 的 弹性 机 制 、 服 务 自治 (用 户 可 以 按 需 开通 服 
务 ， 后 台 自 适应 这 种 变化 ) 、 按 使 用 量 计算 成 本 。 

在 标准 模型 中 ， 云 计算 通常 体现 为 3 种 服务 交付 模式 : IaaS (基础 设施 即 服务 ) 、PaaS 
〈 平 台 即 服务 ) 、SaaS 〈 软 件 即 服务 ) 。 虽 然 也 有 其 他 模式 ， 如 FaaS 〈 框 架 即 服务 ) 、BaaS 
流程 即 服 务 ) 等 ， 但 这 些 服务 模式 都 可 以 纳入 上 述 3 种 模式 之 中 。 这 3 种 服务 交付 模式 提 
供 了 计算 资源 从 底层 到 顶层 的 交付 。 


2 .1 云 计算 概述 


云 计算 表 面 上 看 是 服务 的 交付 ， 其 本 质 上 又 体现 为 能 力 的 交付 。 例 如 : IaaS 本 质 上 是 云 
服务 客户 能 配置 和 使 用 计算 、 存 储 和 网 络 资源 的 一 类 云 能 力 类 型 ， PaaS 本 质 上 是 云 服务 客户 
能 使 用 云 服务 提供 者 支持 的 编程 语言 和 执行 环境 ， 部 署 、 管 理 和 运行 客户 创建 或 获取 的 应 用 
的 一 类 云 能 力 类 型 ，SaaS 本 质 上 是 云 服务 客户 能 使 用 云 服务 提供 者 的 应 用 的 一 类 云 能 力 类 
型 。 云 计算 实现 自 来 计 算 的 根本 原因 就 在 于 这 些 能 力 的 形成 。 


2.1.1 云 计算 概念 

云 计算 (cloudcomputing) 是 基于 互联 网 的 相关 服务 的 增加 、 使 用 和 交付 模式 ， 通 常 涉及 
通过 互联 网 来 提供 动态 易 扩展 且 经 常 是 虚拟 化 的 资源 。 

人 们 过 去 利用 计算 资源 主要 依赖 于 独立 的 单 台 计算 机 ， 受 制 于 物理 机 器 资源 的 数量 。 正 
是 基于 这 个 原因 ， 人 们 开始 期 望 计算 资源 能 够 像 自来水 和 电 一 样 按 需 供应 。 而 云 计算 的 出 现 
使 自 来 计算 变 成 现实 ， 自 来 计算 是 人 类 的 现实 需要 ， 是 需求 创造 的 结果 。 当 然 ， 从 人 类 利用 
计算 技术 的 趋势 来 看 ， 云 计算 只 是 实现 自 来 计 算 的 一 种 模式 ， 随 着 技术 的 进步 ， 人 们 也 许 会 
发 现 新 的 实现 自 来 计算 的 模式 四 。 

云 计算 是 一 种 商业 计算 模型 ， 它 将 计算 任务 分 布 在 大 量 计算 机 构成 的 资源 池上 ， 使 用 户 
能 够 按 需 获取 计算 力 、 存 储 空间 和 信息 服务 。 

从 技术 上 看 ， 大 数据 与 云 计算 的 关系 就 像 混合 面 的 馒头 一 样 密 不 可 分 。 大 数据 必然 无 法 
用 单 台 的 计算 机 进行 处 理 ， 必 须 采 用 分 布 式 计算 架构 。 它 的 特色 在 于 对 海量 数据 的 挖掘 ， 但 
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它 必 须 依 托 云 计 算 的 分 布 式 处 理 、 分 布 式 数据 库 、 云 存储 和 虚拟 化 技术 。 
按照 部 署 主体 的 不 同 ， 云 计算 通常 有 4 种 部 署 方 式 : 公有 云 、 私 有 云 、 混 合 云 和 社区 








云 。 公 有 云 就 是 由 第 三 方 云 计算 服务 商 部 署 的 云 计算 平台 ， 用 户 通 过 租用 的 方式 使 用 它 ; 私 
有 云 就 是 一 个 企业 或 机 构建 设 为 内 部 使 用 的 云 计算 平台 ， 这 两 种 云 是 最 常见 的 ， 也 是 基础 的 
云 部 署 方式 。 混 合 云 和 社区 云 更 多 是 衍生 的 概念 。 当 一 个 企业 的 私有 云 不 能 满足 需要 ， 或 者 
出 现 业 务 起 伏 的 情况 ， 但 又 不 值得 去 扩张 云 计 算 中心 ， 那 么 就 会 租赁 公有 云 部 分 资源 使 用 ， 
技术 上 已 能 够 实现 私有 云 和 公有 云 的 连接 ， 这 就 是 混合 云 。 社 区 云 是 指 云 基础 设施 由 若干 个 
组 织 分 享 ， 以 支持 某 个 特定 的 社区 。 社 区 是 指 有 共同 诉求 和 追求 的 团体 〈 例 如 使 命 、 安 全 要 
求 、 政 策 或 合 规 性 考虑 等 ) 。 和 私有 云 类 似 ， 社 区 云 可 以 是 该 组 织 或 第 三 方 负责 管理 ， 可 以 
是 场 内 服务 ， 也 可 以 是 场 外 服务 。 上 述 是 严格 的 概念 ， 实 际 使 用 中 又 会 出 现 很 多 复杂 情况 。 
例如 ， 在 一 个 公有 云 当 中 特 设 一 个 区 域 专 为 某 一 个 企业 服务 ， 对 企业 而 言 是 私有 云 ， 但 同时 
它 又 是 由 公有 云 分 割 出 来 ， 这 种 情况 就 构成 了 虚拟 数据 中 心 。 还 有 一 种 情况 是 ， 企 业 建 设 私 
有 云 无 须 自己 建设 机 房 ， 可 以 把 自己 的 云 平台 完全 托管 在 一 个 公共 数据 中 心 。 这 与 前 面 虚拟 
数据 中 心 又 不 同 ， 属 于 私有 云 的 托管 。 所 以 ， 用 户 可 以 根据 实际 情况 来 部 署 ， 而 不 需 拘 泥 于 
形 式 D8]。 


2.1.2 ” 云 计算 发 展 简 史 
追根 溯源 ， 云 计算 与 并 行 计算 、 分 布 式 计算 和 网 格 计算 不 无 关系 ， 更 是 虚拟 化 、 效 用 计 
算 、Saas、SOA 等 技术 混合 演进 的 结果 。 本 节 总 结 回顾 几 十 年 来 云 计算 一 步 步 演变 和 发 展 历 


程 中 的 点 滴 事 件 : 


石 。 
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1959 年 6 月 ，ChristopherStrachey 发 表 虚 拟 化 论文 ， 虚 拟 化 是 今天 云 计 算 基础 架构 的 基 


1961 年 ，JohnMcCarthy 提出 计算 力 和 通过 公用 事业 销售 计算 机 应 用 的 思想 。 
1962 年 ，J.C.R.Licklider 提出 “星际 计算 机 网 络 ” 设 想 。 


1965 年 ， 美 














电话 公司 WesternUnion 的 一 位 高 管 提出 建立 信息 公用 事业 的 设想 。 


1983 年 ， 太 阳 电 脑 (Sun Microsystems ) 提出 “网 络 是 电脑 ” (The Network is the 
Computer) ，2006 年 3 月 ,亚马逊 (Amazon) 推出 弹性 计算 云 (Elastic Compute Cloud， 
EC2) 服务 。 
1984 年 ，Sun 公司 的 联合 创始 人 JohnGage 说 出 了 “网 络 就 是 计算 机 ”的 名 言 ， 用 于 描 
述 分 布 式 计算 技术 带 来 的 新 世界 ， 今 天 的 云 计算 正在 将 这 一 理念 变 成 现实 。 

1996 年 ， 网 格 计算 Globus 开源 网 格 平台 起 步 。 

1997 年 ， 南 加 州 大 学 教授 RamnathK.Chellappa 提出 云 计算 的 第 一 个 学 术 定义 “认为 计 
算 的 边界 可 以 不 是 技术 局 限 ， 而 是 经 济 合 理性 。” 

1998 年 ，VMware〔 威 豁 公司) 成 立 并 首次 引入 X86 的 虚拟 技术 。 

1999 年 ，MarcAndreessen 创建 LoudCloud， 是 第 一 个 商业 化 的 IaaS 平台 。 

1999 年 ，salesforce.com 公司 成 立 ， 宣 布 “ 软 件 终结 ”革命 开始 。 

2000 年 ，SaaS 兴起 。 

2004 年 ，Web2.0 会 议 举 行 ，Web2.0 成 为 技术 流行 词 ， 互 联网 发 展 进 入 新 阶段 。 
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2004 年 ，Google 发 布 MapReduce 论文 。Hadoop 就 是 Google 集群 系统 的 一 个 开源 项 
目 总 称 ， 主 要 由 HDFS、MapReduce 和 HBase 组 成 ， 其 中 HDFS 是 GoogleFileSystem 
(GFS) 的 开源 实现 ; MapReduce 是 GoogleMapReduce 的 开源 实现 ; HBase 是 
GoogleBigTable 的 开源 实现 。 

2004 年 ，DougCutting 和 MikeCafarella 实现 了 Hadoop 分 布 式 文件 系统 “HDFS) 和 
Map-Reduce，Hadoop 成 为 非常 优秀 的 分 布 式 系统 基础 架构 。 

2005 年 ，Amazon 宣布 AmazonWebServices 云 计 算 平台 。 

2006 年 ，Amazon 相继 推出 在 线 存储 服务 S3 和 弹性 计算 云 EC2 等 云 服务 。 

2006 年 ，Sun 推出 基于 云 计 算 理论 的 “BlackBox” 计 划 。 

2006 年 8 月 9 日 ，Google 首席 执行 官 埃 里 克 。 施 密 特 〈Eric Schmidt) 在 搜索 引擎 大 会 
(SES San Jose 2006) 首次 提出 “ 云 计算 ” (Cloud Computing) 的 概念 。Google“ 云 端 计 
算 ” 源 于 Google 工程 师 克 里 斯 托 弗 。 比 希 利 亚 所 做 的 “Google 101” 项 目 。 

2007 年 ，Google 与 IBM 在 大 学 开设 云 计算 课程 。 

2007 年 3 月 ， 戴 尔 成 立 数据 中 心 解决 方案 部 门 ， 先 后 为 全 球 5 大 云 计 算 平台 中 的 三 个 
(包括 WindowsAzure、Facebook 和 Ask.com) 提供 云 基础 架构 。 

2007 年 7 月 ， 亚 马 逊 公司 推出 了 简单 队列 服务 〈SimpleQueueService，SQS) ， 这 项 服 
务 使 托管 主机 可 以 存储 计算 机 之 间 发 送 的 消息 。 

2007 年 10 月 ，Google 与 IBM 开始 在 美国 大 学 校园 ， 包 括 卡 内 基 梅 隆 大 学 、 麻 省 理工 学 
院 、 斯 坦 福 大 学 、 加 州 大 学 柏 克 菜 分 校 及 马里 兰 大 学 等 ， 推 广 云 计 算 的 计划 ， 这 项 计划 希望 
能 降低 分 布 式 计算 技术 在 学 术 研 究 方面 的 成 本 ， 并 为 这 些 大 学 提供 相关 的 软 硬 件 设备 及 技术 
支持 (包括 数 百 台 个 人 电脑 及 BladeCenter 与 System x 服务 器 ， 这 些 计算 平台 将 提供 1600 个 
处 理 器 ， 支 持 包 括 Linux、Xen、Hadoop 等 开放 源 代码 平台 ) 。 而 学 生 则 可 以 通过 网 络 开发 
各 项 以 大 规模 计算 为 基础 的 研究 计划 。 

2008 年 1 月 30 日 ，Google 宣布 在 台湾 地 区 启动 “ 云 计 算 学 术 计划 ”， 将 与 台湾 台大 、 
交大 等 学 校 合作 ， 将 这 种 先进 的 大 规模 、 快 速度 的 云 计 算 技 术 推 广 到 校园 。 

2008 年 2 月 1 日 IBM (NYSE: IBM) 宣布 将 在 中 国 无 锡 太湖 新 城 科教 产业 园 为 中 国 的 
软件 公司 建立 全 球 第 一 个 云 计 算 中 心 (Cloud Computing Center) 。 

2008 年 7 月 29 日 ， 雅 虎 、 惠 普 和 英特尔 宣布 一 项 涵盖 美国 、 德 国 和 新 加 坡 的 联合 研究 
计划 ， 推 出 云 计算 研究 测试 床 ， 推 进 云 计算 。 该 计划 要 与 合作 伙伴 创建 6 个 数据 中 心 作为 研 
究 试验 平台 ， 每 个 数据 中 心 配置 1400 个 至 4000 个 处 理 器 。 这 些 合作 伙伴 包括 新 加 坡 资讯 通 
信和 发 展 管理 局 、 德 国 卡尔 斯 鲁 厄 大 学 Steinbuch 计算 中 心 、 美 国 伊利 诺 伊 大 学 香槟 分 校 、 英 特 
尔 研 究 院 、 惠 普 实 验 室 和 雅虎 。 

2008 年 8 月 3 日 ,美国 专 利 商标 局 网 站 信息 显示 ， 戴 尔 正在 申请 “ 云 计算 ” (Cloud 
Computing) 商标 ， 此 举 旨 在 加 强 对 这 一 未 来 可 能 重 塑 技术 架构 的 术语 的 控制 权 。 

2009 年 1 月 ， 阿 里 软件 在 江苏 南京 建立 首 个 “电子 商务 云 计算 中 心 ”。 

2009 年 4 月 ，VMware 推出 业界 首 款 云 操作 系统 VMwarevSphere4。 

2009 年 7 月 ，Google 宣布 将 推出 ChromeOS 操作 系统 。 

2009 年 7 月， 中国 首 个 企业 云 计 算 平台 诞生 (中 化 企业 云 计 算 平台 〉。 

2009 年 9 月 ，VMware 启动 vCloud 计划 构建 全 新 云 服务 。 
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2009 年 11 月 ， 中 国 移动 云 计算 平台 “大 云 ” 计 划 启 动 。 

2010 年 1 月 ，HP 和 微软 联合 提供 完整 的 云 计算 解决 方案 。 

2010 年 1 月 ，IBM 与 松下 达成 迄今 为 止 全 球 最 大 的 云 计 算 交 易 。 

2010 年 1 月 ，Microsoft 正式 发 布 MicrosoftAzure 云 平台 服务 。 

2010 年 3 月 5 日 ，Novell 与 云 安全 联盟 (CSA) 共同 宣布 一 项 供应 商 中 立 计 划 ， 名 为 
“可 信任 云 计 算计 划 (Trusted Cloud Initiative ) ”。 

2010 年 4 月 ， 英 特 尔 在 IDF 上 提出 互联 计算 ， 图谋 用 X86 架构 统一 嵌入 式 、 物 联网 和 
云 计 算 领域 。 

2010 年 ， 微 软 宣布 其 90% 员 工 将 从 事 云 计算 及 相关 工作 。 

2010 年 4 月 ， 戴 尔 推出 源 于 DCS 部 门 设 计 的 PowerEdgeC 系列 云 计 算 服 务 器 及 相关 服 
务 。 

2010 年 7 月 ， 美 国 国家 航空 航天 局 和 包括 Rackspace、AMD、Intel、 戴 尔 等 支持 厂商 共 
同 宣布 “OpenStack” 开 放 源 代码 计划 ， 微 软 在 2010 年 10 月 表示 支持 OpenStack 与 Windows 
Server 2008 R2 的 集成 ; 而 Ubuntu 已 把 OpenStack 加 至 11.04 版 本 中 。 

2011 年 2 月 ， 思 科 系 统 正式 加 入 OpenStack， 重 点 研制 OpenStack 的 网 络 服务 。 


2.1.3” 云 计算 实现 机 制 

由 于 云 计算 分 为 IaaS、PaaS 和 SaaS 三 种 类 型 ， 图 2-1 给 出 了 云 计算 技术 体系 结构 ， 这 
个 体系 结构 概括 了 不 同 解决 方案 的 主要 特征 ， 每 一 种 方案 或 许 只 实现 了 其 中 部 分 功能 ， 或 许 
也 还 有 部 分 相对 次 要 功能 尚未 概括 进来 。 












































后 S0A 建 设 层 
《有 接口 】 (服务 注 册 ) 《 有 多 查 找 ) ( 服务 访问 ) (工作 流 ) 
六 管理 中 间 件 
人 em 屿 管理 | 环境 配置 | | 交互 管理 | 使 用 计 归 | ] 身份 认 证 
交 | 访问 授权 
任务 管理 | 映像 部 黑 | | 任 务 调度 | | 任务 执行 | 生 全 妇 | 全 
同 区 过 二 


















































(enter 负载 均衡 | | 故障 检测 | | 故障 恢复 | 监视 统计 安全 审计 


图 2-1 云 计算 技 术 体系 结构 
云 计算 技术 体系 结构 分 为 4 层 : 物理 资源 层 、 资 源 池 层 、 管 理 中 间 件 层 和 SOA 构建 层 ， 
如 图 2-1 所 示 。 物 理 资源 层 包 括 计 算 机 、 存 储 器 、 网 络 设施 、 数 据 库 和 软件 等 ， 资 源 池 层 是 
将 大 量 相同 类 型 的 资源 构成 同 构 或 接近 同 构 的 资源 池 ， 如 计算 资源 池 、 数 据 资源 池 等 。 构 建 
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资源 池 更 多 是 物理 资源 的 集成 和 管理 工作 ;管理 中 间 件 负责 对 云 计算 的 资源 进行 管理 ， 并 对 
众多 应 用 任务 进行 调度 ， 使 资源 能 够 高 效 、 安 全 地 为 应 用 提供 服务 ; SOA 构建 层 将 云 计 算 能 
力 封 装 成 标准 的 Web Services 服务 ， 并 纳入 到 SOA 体系 进行 管理 和 使 用 ， 包 括 服 务 注册 、 查 
找 、 访 问 和 构建 服务 工作 流 等 。 管 理 中 间 件 和 资源 池 层 是 云 计算 技术 的 最 关键 部 分 ，SOA 构 
建 层 的 功能 更 多 依靠 外 部 设施 提供 。 

云 计算 的 管理 中 间 件 负责 资源 管理 、 任 务 管理 、 用 户 管理 和 安全 管理 等 工作 。 资 源 管理 
负责 均衡 地 使 用 云 资源 节点 、 检 测 节点 的 故障 并 试图 恢复 或 屏蔽 之 ， 并 对 资源 的 使 用 情况 进 
行 监视 统计 ; 任务 管理 负责 执行 用 户 或 应 用 提交 的 任务 ， 包 括 完 成 用 户 任务 映 象 (Image) 的 部 
署 和 管理 、 任 务 调度 、 任 务 执行 、 任 务 生命 期 管理 等 ; 用 户 管理 是 实现 云 计算 商业 模式 的 一 
个 必 不 可 少 的 环节 ， 包 括 提供 用 户 交互 接口 、 管 理 和 识别 用 户 身份 、 创 建 用 户 程序 的 执行 环 
境 、 对 用 户 的 使 用 进行 计 费 等 ， 安 全 管理 保障 云 计算 设施 的 整体 安全 ， 包 括 身 份 认证 、 访 问 
授权 、 综 合 防护 和 安全 审计 等 。 

基于 上 述 体系 结构 ， 本 节 以 JaaS 云 计算 为 例 ， 简 述 云 计算 的 实现 机 制 ， 如 图 2-2 所 示 外 。 用 
户 交 互 接口 向 应 用 以 Web Services 方式 提供 访问 接口 ， 获 取 用 户 需求 。 服 务 目录 是 用 户 可 以 
访问 的 服务 清单 。 系 统管 理 模块 负责 管理 和 分 配 所 有 可 用 的 资源 ， 其 核心 是 负载 均衡 。 配 置 
工具 负责 在 分 配 的 节点 上 准备 任务 运行 环境 。 监 视 统计 模块 负责 监视 节点 的 运行 状态 ， 并 完 
成 用 户 使 用 节点 情况 的 统计 。 用 户 交 互 接口 允许 用 户 从 目录 中 选取 并 调用 一 个 服务 。 该 请 求 
传递 给 系统 管理 模块 后 ， 它 将 为 用 户 分 配 恰当 的 资源 ， 然 后 调用 配置 工具 来 为 用 户 准备 运行 
环境 。 
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2-2 简化 IaaS 实现 机 制 


2.1.4 ” 云 计算 服务 形式 
云 计算 服务 是 指 将 大 量 用 网 络 连接 的 计算 资源 统一 管理 和 调度 ， 构 成 一 个 计算 资源 池 向 
用 户 按 需 服务 。 用 户 通过 网 络 以 按 需 、 易 扩展 的 方式 获得 所 需 资源 和 服务 。 它 足够 智能 ， 能 
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够 根据 你 的 位 置 、 时 间 、 偏 好 等 信息 ， 实 时 地 对 你 的 需求 做 出 预期 。 

云 服务 的 商业 模式 是 通过 繁殖 大 量 创业 公司 提供 丰富 的 个 性 化 产品 ， 以 满足 市 场 上 日 益 
膨胀 的 个 性 化 需求 。 其 繁殖 方式 是 为 创业 公司 提供 资金 、 推 广 、 支 付 、 物 流 、 客 服 一 整套 服 
务 ， 把 自己 的 运营 能 力 像 水 和 电 一 样 让 外 部 随 需 使 用 。 

云 服 务 提供 商 ， 为 中 小 企业 搭建 信息 化 所 需要 的 所 有 网 络 基础 设施 及 软件 、 硬 件 运作 平 
台 ， 并 负责 所 有 前 期 的 实施 、 后 期 的 维护 等 一 系列 服务 ， 企 业 无 须 购买 软 硬 件 、 建 设 机 房 、 
招聘 IT 人 员 ， 只 需 前 期 支付 一 次 性 的 项 目 实施 费 和 定期 的 软件 租赁 服务 费 ， 即 可 通过 互联 网 
享用 信息 系统 。 

云 计 算 服 务 应 该 具备 以 下 几 条 特征 : 


(1) 随 需 自助 服务 。 

(2) 随时 随地 用 任何 网 络 设备 访问 。 

(3) 多 人 共享 资源 池 。 

(4) 快速 重新 部 署 灵 活 度 。 

(5) 可 被 监控 与 量 测 的 服务 。 

(6) 基于 虚拟 化 技术 快速 部 署 资 源 或 获得 服务 。 
(7) 减少 用 户 终端 的 处 理 负 担 。 

(8) 降低 了 用 户 对 于 IT 专业 知识 的 依赖 。 


云 架 构 数据 中 心 具 有 多 种 优点 ， 逐 渐 成 为 企业 应 用 的 大 趋势 ， 企 业 选 择 采 用 云 架构 数据 
中 心 ， 应 考虑 服务 提供 商 是 否 符合 以 下 三 大 要 点 。 

首先 ， 云 架构 数据 中 心服 务 提供 商 必 须 具 有 优秀 的 云端 骨干 网 络 ， 确 保 数据 传输 的 顺畅 
及 安全 。 如 第 一 线 集团 ， 既 可 提供 MPLS 专线 网 络 服务 ， 又 可 同时 提供 云 架 构 数据 中 心服 
务 。 对 于 许多 跨 地 域 的 企业 来 说 ， 除 需要 数据 服务 之 外 ， 更 需要 解决 与 分 布 世界 各 地 的 分 支 
机 构 通信 的 问题 ， 故 稳定 的 网 络 质量 一 定 是 需要 重点 考量 的 。 

其 次 ， 云 架构 数据 中 心 是 否 有 足够 的 弹性 ， 是 否 可 以 让 用 户 随时 选择 调配 不 同 的 云 资 
源 ， 以 符合 自身 的 使 用 需要 。 以 金融 业 为 例 ， 每 日 股票 市 场 的 交易 时 段 最 为 繁忙 ， 云 端 数据 
中 心 有 时 候 需 要 在 短 时 间 内 提升 工作 性 能 ， 以 应 付 各 种 突如其来 的 需要 。 

最 后 ， 服 务 提供 商 有 没有 提供 简单 、 易 用 的 软件 ， 让 企业 人 员 安 在 办 公 室 之 中 ， 也 可 自 
行 掌握 数据 中 心 的 所 有 运作 ， 如 同 管理 实体 数据 中 心 一 样 。 





2.1.5 云 计 算 时 代 的 数据 库 NoSQL 

随 着 云 计算 时 代 的 到 来 ， 各 种 类 型 的 互联 网 应 用 层出不穷 ， 对 与 此 相关 的 数据 模型 、 分 
布 式 架构 、 数 据 存储 等 数据 库 相 关 的 技术 指标 也 提出 了 新 的 要 求 。 虽 然 传统 的 关系 型 数据 库 
已 在 数据 存储 方面 占据 了 不 可 动摇 的 地 位 ， 但 由 于 其 天 生 的 限制 ， 已 经 越 来 越 无 法 满足 云 计 
算 时 代 对 数据 扩展 、 读 写 速度 、 支 撑 容 量 以 及 建设 和 运营 成 本 的 要 求 。 云 计算 时 代 对 数据 库 
技术 提出 了 新 的 需求 ， 主 要 表现 在 以 下 几 个 方面 : 

(1) 海量 数据 处 理 : 对 类 似 搜索 引擎 和 电信 运营 商 级 的 经 营 分 析 系 统 这 样 大 型 的 应 用 而 
言 ， 需 要 能 够 处 理 PB 级 的 数据 ， 同 时 应 对 百 万 级 的 流量 。 
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(2) 大 规模 集群 管理 : 分 布 式 应 用 可 以 更 加 简单 地 部 署 、 应 用 和 管理 。 

(3) 低 延 迟 读 写 速度 : 快速 的 响应 速度 能 够 极 大 地 提高 用 户 的 满意 度 。 

(4) 建设 及 运营 成 本 : 云 计 算 应 用 的 基本 要 求 是 希望 在 硬件 成 本 、 软 件 成 本 以 及 人 力 成 
本 方面 都 有 大 幅度 的 降低 。 


关系 型 数据 库 遇 到 上 述 难以 克服 的 瓶颈 ， 与 此 同时 ， 它 的 很 多 主要 特性 在 云 计 算 应 用 中 却 往 
往 无 用 武之 地 ， 例 如 : 数据 库 事务 一 致 性 、 数 据 库 的 写实 时 性 和 读 实时 性 、 复 杂 的 SQL 查询 特 
别 是 多 表 关 联 查询 。 因 此 ， 传 统 的 关系 型 数据 库 已 经 无 法 独立 应 付 云 计算 时 代 的 各 种 应 用 。 

关系 型 数据 库 越 来 越 无 法 满足 云 计算 的 应 用 场景 ， 为 了 解决 此 类 问题 ， 非 关系 型 数据 库 
应 运 而 生 ， 由 于 在 设计 上 和 传统 的 关系 型 数据 库 相 比 有 了 很 大 的 不 同 ， 所 以 此 类 数据 库 被 称 
为 “NoSQL (Not only SQL) ”系列 数据 库 。 与 关系 型 数据 库 相 比 ， 它 们 非常 关注 对 数据 高 
并 发 读 写 和 海量 数据 的 存储 ， 在 架构 和 数据 模型 方面 做 了 简化 ， 而 在 扩展 和 并 发 等 方面 做 了 
增强 。 目 前 ， 主 流 的 NoSQL 数据 库 包 括 BigTable 、HBase 、Cassandra 、SimpleDB 、 
CouchDB、MongoDB 以 及 Redis 等 。NoSQL 常用 数据 模型 包括 以 下 3 种 : 


1. Column-oriented ( 列 式 ) 


列 式 主要 使 用 Table 这 样 的 模型 ， 但 是 它 并 不 支持 类 似 Join 这 样 多 表 的 操作 ， 它 的 主要 
特点 是 在 存储 数据 时 ， 主 要 围绕 着 “ 列 (Column) ”， 而 不 是 像 传统 的 关系 型 数据 库 那 样 根 
据 “ 行 (Row) ”进行 存储 ， 也 就 是 说 ， 属 于 同一 列 的 数据 会 尽 可 能 地 存储 在 硬盘 同一 个 页 
中 ， 而 不 是 将 属于 同一 个 行 的 数据 存放 在 一 起 。 这 样 做 的 好 处 是 ， 对 于 很 多 类 似 数 据 仓库 的 
应 用 ， 虽 然 每 次 查询 都 会 处 理 很 多 数据 ， 但 是 每 次 所 涉及 的 列 并 没有 很 多 。 使 用 列 式 数据 
库 ， 将 会 节省 大 量 WO， 并 且 大 多 数列 式 数据 库 都 支持 Column Family 这 个 特性 ， 能 将 多 个 列 
并 为 一 个 小 组 。 这 样 做 的 好 处 是 能 将 相似 列 放 在 一 起 存储 ， 提 高 这 些 列 的 存储 和 查询 效率 。 
总 体 而 言 ， 这 种 数据 模型 的 优点 是 比较 适合 汇总 和 数据 仓库 这 类 应 用 。 

2. Key-value 

虽然 Key-value 这 种 模型 和 传统 的 关系 型 相 比 较 简 单 ， 有 点 类 似 常见 的 HashTable， 一 个 
Key 对 应 一 个 Value; 但 是 它 能 提供 非常 快 的 查询 速度 、 大 的 数据 存放 量 和 高 并 发 操作 ， 非 常 
适合 通过 主键 对 数据 进行 查询 和 修改 等 操作 ， 虽 然 不 支持 复杂 的 操作 ， 但 是 可 以 通过 上 层 的 
开发 来 弥补 这 个 缺陷 。 


3. Document ( 文档 ) 


在 结构 上 ，Document 和 Key-value 是 非常 相似 的 ， 也 是 一 个 Key 对 应 一 个 Value; 但 是 
这 个 Value 主要 以 JSON 或 者 XML 等 格式 的 文档 来 进行 存储 ， 是 有 语义 的 ， 并 且 Document 
DB 一 般 可 以 对 Value 创建 Secondary Index 来 方便 上 层 的 应 用 ， 而 这 点 是 普通 Key-Value DB 
所 无 法 支持 的 。 

云 计 算 主 要 常见 的 有 两 类 场景 : 需要 低 延 迟 和 高 并 发 的 读 写 能 力 ， 数 据 量 虽 大 ， 但 不 超 
过 TB 级 别 ， 大 部 分 现在 使 用 RDBMS 的 Web 应 用 基本 上 都 属于 这 一 类 ， 类 似 传统 的 OLTP 

(联机 事务 处 理 ) ; 海量 数据 的 存储 和 操作 ， 如 PB 级 别 的 ， 这 方面 的 例子 有 传统 的 数据 仓 
库 、Google 海量 的 Web 页 面 和 图 片 存储 等 ， 类 似 传统 的 OLAP〈 联 机 分 析 处 理 ) 。 目 前 ， 业 
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界 还 没有 一 款 数据 库 能 同时 适应 上 述 多 种 云 计 算 场景 的 NoSQL 数据 库 。 


2 了. 2 云 计算 发 展 动力 源泉 


云 计算 作为 新 一 代 信息 技术 的 重要 代表 ， 正 在 深刻 地 改变 着 信息 产业 的 发 展 格 局 ， 推 动 
生产 、 生 活 方式 发 生 着 重大 的 革命 性 变化 。 

微软 早 在 16 年 前 就 开始 了 云 计算 的 研发 工作 ， 用 户 已 经 很 熟悉 的 hotmail、XBox360 
live、Office365 等 产品 就 是 典型 的 云 计算 的 应 用 。 微 软 目前 90% 的 研发 团队 在 从 事 与 云 计算 
相关 的 工作 。 

在 云 计算 领域 ,各 国 几乎 都 处 在 同一 个 起 跑 线 ， 在 欧美 等 西方 国家 ， 云 计算 的 发 展 更 多 
的 是 市 场 导向 。 

2015 年 的 《政府 工作 报告 》 中 提出 ， 要 制定 “互联 网 +” 行 动 计划 ， 推 动 移动 互联 网 、 
云 计 算 、 大 数据 、 物 联网 等 与 现代 制造 业 结 合 。 这 既是 对 云 计 算 推 动产 业 转 型 升级 重要 作用 
的 充分 肯定 ， 也 为 今后 云 计算 产业 的 发 展 指明 了 方向 。 

当前 ， 云 计算 发 展 面临 三 大 发 展 机 遇 : 


(1) 云 计算 作为 IT 产业 发 展 的 重要 方向 。 

(2) 应 用 驱动 是 云 计算 发 展 的 重要 动力 源泉 。 正 是 这 样 规模 最 大 、 应 用 最 复杂 、 需 求 最 
有 特点 的 市 场 ， 培 育 出 了 若干 的 云 计 算 应 用 。 而 复杂 的 系统 和 庞大 的 应 用 需求 为 发 展 云 计算 
带 来 了 很 好 的 先 机 。 

(3) 软件 技术 架构 正在 发 生 重大 变革 。 以 云 计算 、 物 联网 、 移 动 互联 网 、 大 数据 为 代表 
的 新 技术 发 展 和 应 用 ， 使 得 传统 软件 架构 已 经 被 颠覆 ， 新 的 面向 服务 的 架构 和 应 用 正在 成 为 
潮流 和 趋势 。 


2 .了 云 计 算 技术 分 析 


云 计算 是 大 规模 分 布 式 计算 技术 及 其 配套 商业 模式 演进 的 产物 ， 它 的 发 展 主要 有 赖 于 虚 
拟 化 、 分 布 式 数据 存储 、 数 据 管理 、 编 程 模式 、 信 息 安全 等 各 项 技术 、 产 品 的 共同 发 展 。 近 
些 年 来 ， 托 管 、 后 向 收费 、 按 需 交 付 等 商业 模式 的 演进 也 加 速 了 云 计算 市 场 的 转折 。 云 计算 
不 仅 改变 了 信息 提供 的 方式 ， 也 颠覆 了 传统 ICT 系统 的 交付 模式 。 与 其 说 云 计算 是 技术 的 创 
新 ， 不 如 说 云 计 算是 思维 和 商业 模式 的 转变 。 


2.3.1 编程 模式 

作为 一 种 新 兴 的 计算 模式 ， 云 计算 以 互联 网 服务 和 应 用 为 中 心 ， 其 背后 是 大 规模 集群 和 
海量 数据 ， 新 的 场景 需要 新 的 编程 模型 来 支撑 。 云 计算 场景 下 ， 新 的 编程 模型 要 能 够 方便 快 
速 地 分 析 和 处 理 海量 数据 ， 并 提供 安全 、 容 错 、 负 和 载 均衡 、 高 并 发 和 可 伸缩 性 等 机 制 。 

为 了 能 够 低 成 本 高 效率 地 处 理 海量 数据 ， 主 要 的 互联 网 公司 都 在 大 规模 集群 系统 上 研发 
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了 分 布 式 编程 系统 ， 使 普通 开发 人 员 可 以 将 精力 集中 于 业务 逻辑 上 ， 不 用 关注 分 布 式 编程 的 
底层 细节 和 复杂 性 ， 从 而 降低 普通 开发 人 员 编 程 处 理 海量 数据 并 充分 利用 集群 资源 的 难度 。 

目前 云 计算 编程 模式 的 研究 在 工业 界 和 学 术 界 方兴未艾 ， 各 种 新 思想 和 新 技术 不 断 出 
现 。 本 节 下 面 重 点 介绍 几 种 有 代表 性 的 编程 模型 。 

1. MapReduce 

MapReduce 是 Google 公司 的 Jeff Dean 等 人 提出 的 编程 模型 ， 用 于 大 规模 数据 的 处 理 和 
生成 。 从 概念 上 讲 ，MapReduce 处 理 一 组 输入 的 key/value 对 “〔 键 值 对 ) ， 产 生 另 一 组 输出 的 
键 值 对 。 当 前 的 软件 实现 是 指定 一 个 Map《〈 上 映射 ) 函数 ， 用 来 把 一 组 键 值 对 映射 成 一 组 新 的 
键 值 对 ， 指 定 并 发 的 Reduce〈 化 简 ) 函数 ， 用 来 保证 所 有 映射 的 键 值 对 中 的 每 一 个 共享 相同 
的 键 组 。 程序 员 只 需要 根据 业务 逻辑 设计 Map 和 Reduce 函数 ， 具 体 的 分 布 式 、 高 并 发 机 制 
由 MapReduce 编程 系统 实现 。 

MapReduce 在 Google 得 到 了 广泛 应 用 ， 包 括 反 向 索引 构建 、 分 布 式 排序 、Web 访问 日 
志 分 析 、 机 器 学 习 、 基 于 统计 的 机 器 翻译 、 文 档 聚 类 等 。 

Hadoop 一 一 作为 MapReduce 的 开源 实现 一 一 得 到 了 Yahoo!、Facebook、IBM 等 大 量 公 
司 的 支持 和 应 用 。 


2. Dryad 
Dryad 是 Microsoft 设计 并 实现 的 允许 程序 员 使 用 集群 或 数据 中 心计 算 资 源 的 数据 并 行 处 
理 编 程 系统 。 从 概念 上 讲 ， 一 个 应 用 程序 表示 成 一 个 有 向 无 环 图 (Directed Acyclic Graph， 


用 来 传输 数据 ， 可 采用 文件 、TCP 管道 和 共享 内 存 的 FIFO 等 数据 传输 机 制 。Dryad 类 似 
UNIX 中 的 管道 。 如 果 把 UNIX 中 的 管道 看 成 一 维 ， 即 数据 流动 是 单 向 的 ， 每 一 步 计算 都 是 
单 输入 单 输出 ， 整 个 数据 流 是 一 个 线性 结构 ;那么 Dryad 可 以 看 成 是 二 维 的 分 布 式 管道 ， 
个 计算 项 点 可 以 有 多 个 输入 数据 流 ， 处 理 完 数据 后 ， 可 以 产生 多 个 输出 数据 流 ， 一 个 Dryad 
作业 是 一 个 DAG。Dryad 作业 结构 图 如 图 2-3 所 示 。 


Input files 






































Chanmel ls 


Output files 


图 2-3 Dryad 作业 结构 图 


Dryad 是 针对 运行 Windows HPC Server 的 计算 机 集群 设计 的 ， 是 Microsoft 构建 云 计 算 
基础 设施 的 核心 技术 之 一 。 
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3. Pregel 

Pregel 是 Google 提出 的 一 个 面向 大 规模 图 计算 的 通用 编程 模型 。 许 多 实际 应 用 中 都 涉及 
大 型 的 图 算法 ， 典 型 的 如 网 页 链接 关系 、 社 交 关 系 、 地 理 位 置 图 、 科 研 论文 中 的 引用 关系 
等 ， 有 的 图 规模 可 达 数 十 亿 的 顶点 和 上 万 亿 的 边 。Pregel 编程 模型 就 是 为 了 对 这 种 大 规模 图 
进行 高 效 计算 而 设计 。 

4.All-Pairs 

All-Pairs 是 从 科学 计算 类 应 用 中 抽象 出 来 的 一 种 编程 模型 。 从 概念 上 讲 ，All-Pairs 解决 
的 问题 可 以 归结 为 求 集合 A 和 集合 B 的 笛 卡 尔 积 。All-Pairs 模型 典型 应 用 场景 是 比较 两 个 图 
片 数 据 集中 任意 两 张 图 片 的 相似 度 。 典 型 的 All-Pairs 计算 包括 四 个 阶段 : 首先 对 系统 建 模 求 
最 优 的 计算 节点 个 数 ， 随 后 向 所 有 的 计算 节点 分 发 数据 集 ， 接着 调度 任务 到 响应 的 计算 节点 
上 运行 ， 最 后 收集 计算 结果 。 

5. Sawzall 

Sawzall 是 Google 建立 在 其 MapReduce 编程 模型 之 上 的 查询 语言 ，Sawzall 的 典型 任务 
是 在 成 百 或 上 千 台 机 器 上 并 发 操作 上 百 万 条 记录 。 整 个 计算 分 为 两 个 阶段 过滤 阶 段 (相当 
于 Map 阶段 ) 和 聚合 阶段 (相当 于 Reduce 阶段 ) ， 并 且 过 滤 和 聚合 均 可 以 在 大 量 的 分 布 式 
节点 上 并 行 执行 。Sawzall 程序 实现 非常 简洁 ， 据 统计 一 个 完成 相同 功能 的 MapReduce C++ 
程序 代码 量 是 Sawzall 程序 代码 量 的 10~20 倍 。 


6. FlumeJava 

FlumeJava 是 一 个 建立 在 MapReduce 之 上 的 Java 库 ， 适 合 由 多 个 MapReduce 作业 拼接 在 
一 起 的 复杂 计算 场景 使 用 。FlumeJava 能 简单 地 开发 、 测 试 和 执行 数据 并 行 管道 。 

FlumeJava 库 位 于 MapReduce 等 原 语 的 上 层 ， 在 允许 用 户 表达 计算 和 管道 (Pipeline) 信 
息 的 前 提 下 ， 通 过 自动 的 优化 机 制 后 调用 MapReduce 等 底层 原 语 进行 执行 。Flumejava 首先 
优化 执行 计划 ， 然 后 基于 底层 的 原 语 来 执行 优化 了 的 操作 。 

7. DryadLINQ 

DryadLINQ 是 Microsoft 的 高 级 编程 语言 。DryadLINQ 结合 了 Microsoft 的 两 个 重要 技 
术 : Dryad 语言 和 查询 语言 LINQ。DryadLINQ 使 用 和 LINQ 相同 的 编程 模型 ， 并 扩展 了 少量 
操作 符 和 数据 类 型 以 适用 于 分 布 式 计算 。DryadLINQ 程序 是 一 个 顺序 的 LINQ 代码 ， 对 数据 
集 做 任何 无 副作用 的 操作 ， 编 译 器 会 自动 地 将 数据 并 行 的 部 分 翻译 成 执行 计划 ， 交 给 底层 的 
Dryad 完成 计算 。 

8. Pig Latin 

Pig Latin 是 Yahoo! 研 发 的 运行 在 其 Pig 系统 上 的 数据 流 语 言 。Pig 是 高 层次 的 声明 式 
SQL 与 低层 次 过 程式 的 MapReduce 之 间 的 折 中 。Pig 系统 将 Pig Latin 程序 编译 成 一 组 
Hadoop (MapReduce 的 开源 实现 ) 作业 ， 然 后 进行 执行 。Pig 不 仅 提供 了 常见 的 数据 处 理 操 
作 ， 包 括 加 载 、 存 储 、 过 滤 、 分 组 、 排 序 和 连接 等 ， 同 时 Pig 还 提供 了 丰富 的 数据 模型 ， 支 
持原 子 类 型 、 字 典 、 元 组 等 数据 结构 ， 以 及 嵌 套 操作 。 

随 着 商业 智能 分 析 、 社 交 网 络 分 析 、 在 线 推荐 、 数 据 挖掘、 机 器 学 习 等 应 用 的 普及 和 深 
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入 ， 海 量 数据 处 理 的 应 用 领域 越 来 越 呈现 出 多 样 化 的 趋势 。 而 这 些 应 用 领域 的 问题 可 以 抽象 
为 结构 化 数据 处 理 、 大 规模 图 计算 、 达 代 计 算 等 多 种 不 同类 型 的 计算 。 这 些 不 同 的 问题 领域 
适合 采用 不 同 的 编程 模型 ， 不 存在 能 解决 所 有 数据 密集 型 应 用 的 通用 编程 模型 。 可 以 预见 
会 不 断 出 现 新 的 编程 模型 来 解决 领域 相关 的 应 用 。 





2.3.2 ”海量 数据 云 存储 技术 

随 着 Internet 技术 的 快速 发 展 ， 数 据 量 呈现 出 爆炸 式 增长 ， 对 所 需 的 存储 系统 有 更 高 的 
要 求 一 更 大 存储 容量 、 高 性 能 、 高 安全 级 别 、 高 智能 化 等 ， 传 统 的 SAN/NAS 存储 技术 已 
无 法 处 理 PB/EB 级 海量 数据 ， 存 在 容量 、 性 能 、 扩 展 和 费用 等 上 的 瓶颈 。 云 存储 是 云 计 算 概 
念 上 的 延伸 和 发 展 ， 专 注 于 解决 云 计 算 中 海量 数据 的 存储 挑战 ， 它 不 仅 能 给 云 计算 服务 提供 
专业 的 存储 解决 方案 ， 而 且 还 可 以 独立 地 发 布 存储 服务 。 云 存储 是 综合 分 布 式 文件 系统 、 集 
群 应 用 和 网 络 等 技术 ， 通 过 软件 让 网 络 中 存在 的 大 量 的 、 不 同类 型 的 存储 设备 协同 工作 ， 共 
同 对 外 提供 数据 存储 和 业务 访问 功能 的 一 个 系统 09。 

云 存 储 不 是 存储 ， 而 是 服务 。 就 如 同 云 状 的 广域网 和 互联 网 一 样 ， 云 存储 对 使 用 者 来 
讲 ， 不 是 指 某 一 个 具体 的 设备 ， 而 是 指 一 个 由 许 许多 多 个 存储 设备 和 服务 器 所 构成 的 集合 
体 。 使 用 者 使 用 云 存储 ， 并 不 是 使 用 某 一 个 存储 设备 ， 而 是 使 用 整个 云 存储 系统 带 来 的 一 种 
数据 访问 服务 。 所 以 严格 来 讲 ， 云 存储 不 是 存储 ， 而 是 一 种 服务 。 

云 存储 系统 中 的 所 有 设备 对 使 用 者 来 讲 都 是 完全 透明 的 ， 任 何 地 方 的 任何 一 个 经 过 授权 
的 使 用 者 都 可 以 通过 一 根 按 入 线 费 与 云 存储 连接 ， 对 云 存储 进行 数据 访问 。 云 存储 系统 的 结 
构 模 型 由 下 面 4 层 组 成 。 

1. 存储 层 

存储 层 是 云 存储 最 基础 的 部 分 。 云 存储 中 的 存储 设备 往往 数量 庞大 且 多 分 布 在 不 同 地 
域 ， 彼 此 之 间 通过 广 域 同 、 互 联网 或 者 FC 光纤 通道 网 络 连接 在 一 起 。 存 储 设备 之 上 是 一 个 
统一 存储 设备 管理 系统 ， 可 以 实现 存储 设备 的 逻辑 虚拟 化 管理 、 多 链 路 宛 余 管理 ， 以 及 硬件 
设备 的 状态 监控 和 故障 维护 。 


2. 基础 管理 层 


基础 管理 层 是 云 存 储 最 核心 的 部 分 ， 也 是 云 存储 中 最 难以 实现 的 部 分 。 基 础 管理 层 通过 
集群 、 分 布 式 文件 系统 和 网 格 计算 等 技术 ， 实 现 云 存储 中 多 个 存储 设备 之 间 的 协同 工作 ， 使 
多 个 存储 设备 可 以 对 外 提供 同一 种 服务 ， 并 提供 更 大 更 强 更 好 的 数据 访问 性 能 。 

CDN 内 容 分 发 系统 、 数 据 加 密 技术 保证 云 存储 中 的 数据 不 会 被 未 授权 的 用 户 所 访问 ， 同 
时 ， 通 过 各 种 数据 备份 和 容 灾 技术 和 措施 可 以 保证 云 存 储 中 的 数据 不 会 丢失 ， 保 证 云 存 储 自 
身 的 安全 和 稳定 。 


3. 应 用 接口 层 


应 用 接口 层 是 云 存 储 最 灵活 多 变 的 部 分 。 不 同 的 云 存储 运营 单位 可 以 根据 实际 业务 类 型 
开发 不 同 的 应 用 服务 接口 ， 提 供 不 同 的 应 用 服务 。 比 如 视频 监控 应 用 平台 、IPTV 和 视频 点 播 
应 用 平台 、 网 络 硬盘 引用 平台 、 远 程 数据 备份 应 用 平台 等 。 
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4. 访问 层 


任何 一 个 授权 用 户 都 可 以 通过 标准 的 公用 应 用 接口 来 登录 云 存 储 系统 ， 享 受 云 存储 服 
务 。 云 存储 运营 单位 不 同 ， 云 存储 提供 的 访问 类 型 和 访问 手段 也 不 同 。 

云 存储 的 核心 是 应 用 软件 与 存储 设备 相 结合 ， 通 过 应 用 软件 来 实现 存储 设备 向 存储 服务 
的 转变 。 

本 节 以 阿里 云 存 储 系统 为 例 介 绍 云 存 储 解决 方案 。 表 格 存储 〈Table Store) 是 构建 在 阿 
里 云 飞天 分 布 式 系统 之 上 的 NoSQL 数据 存储 服务 ， 提 供 海量 结构 化 数据 的 存储 和 实时 访 
问 。 表 格 存储 以 实例 和 表 的 形式 组 织 数据 ， 通 过 数据 分 片 和 负载 均衡 技术 ， 实 现 规模 上 的 无 
颖 扩展 。 应 用 通过 调用 表格 存储 API / SDK 或 者 操作 管理 控制 台 来 使 用 表格 存储 服务 。 表 格 
存储 Table Store， 是 一 个 即 开 即 用 ， 支 持 高 并 发 、 低 延 时 、 无 限 容量 的 Nosql 数据 存储 服 
务 。 

2-4 为 阿里 云 存 储 方案 框架 ， 表 格 存储 Table Store + 云 服 务 器 ECS+ E-MapReduce+ 
大 数据 计算 服务 ODPS。 
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图 24 阿里 云 存储 方案 框架 


2.3.3 海量 数据 管理 技术 

大 数据 〈Big Data) 对 传统 的 数据 管理 技术 带 来 了 巨大 挑战 。 目 前 围绕 海量 数据 管理 的 
热点 问题 研究 方向 是 着 重 研究 数据 抽取 与 集成 、 数 据 存储 与 处 理 、 信 息 检 索 、 语 义 计算 、 数 
据 隐私 保护 等 方面 技术 [2， 主 要 包括 ， 

(1) 研究 信息 抽取 及 集成 技术 。 侧 重 Web 信息 抽取 和 集成 (包括 Deep Web、 网 页 理 


解 ) 。 
(2) 研究 海量 数据 存储 、 分 析 及 挖掘 技术 。 重 点 研究 大 规模 图 数据 (包括 语义 网 数据 》 
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等 的 存储 、 检 索 及 挖掘 技术 。 


(3) 研究 信息 检索 技 


术 ， 包 括 语义 检索 、 上 下 文 感知 的 信息 检索 技术 等 。 


(4) 研究 语义 网 与 语义 计算 技术 ， 包 括 Web 数据 规范 表达 、 知 识 表 达 及 大 规模 知识 库 


推理 、 知 识 可 视 化 技术 等 。 
(5) 数据 隐私 保护 技 





术 。 研 究 面向 隐私 保护 的 多 源 海量 数据 挖掘 与 查询 。 


云 系统 为 开发 商 和 用 户 提供 了 简单 通用 接口 ， 使 得 开发 商 将 注意 力 集中 在 软件 本 身 ， 无 
须 考虑 底层 架构 。 云 系统 根据 用 户 的 请 求 动态 分 配 计算 资源 。 图 2-5 为 云 系 统 资源 察 引 架构 


图 。 







用 户 接口 和 用 户 库 


全 局 索引 层次 结构 


支持 范围 查询 的 结构 化 禾 益 





图 2-5 云 系统 资源 索引 架构 图 


该 框架 中 ， 结 构 化 覆盖 网 络 形式 组 织 处 理 节点 ， 每 个 节点 构建 本 体 索引 以 加 速 数据 访 
问 。 一 个 全 局 索引 通过 在 覆盖 网 络 中 选择 和 发 布 一 个 本 地 索引 分 配 来 建立 。 目 前 这 种 方法 在 
Amazon EC2 上 实践 证 明了 有 效 性 和 可 行 性 。 


2.3.4 ”虚拟 化 技术 


作为 “智慧 的 信息 技术 ”的 重要 组 成 部 分 ， 虚 拟 化 与 云 计算 已 成 为 当今 信息 产业 领 


域 最 受 瞩 目的 新 兴 概 念 。 


但 仍 有 许多 人 对 虚拟 化 和 云 计算 感觉 很 模糊 ， 认 为 虚拟 化 就 是 


云 计算 "中 。 虚 拟 化 技术 是 云 计算 的 关键 技术 。 云 计算 把 计算 当 作 公 用 资源 ， 而 不 是 一 个 具 


体 的 产品 或 者 是 技术 。 
云 计算 将 各 种 IT 资源 


以 服务 的 方式 通过 互联 网 交付 给 用 户 ， 然 而 虚拟 化 本 身 并 不 能 给 用 


户 提 供 自 服务 层 。 没 有 自 服务 层 ， 就 不 能 提供 计算 服务 。 云 计算 模型 允许 终端 用 户 自 行 提 供 
自己 的 服务 器 、 应 用 程序 和 包括 虚拟 化 等 其 他 的 资源 ， 这 反 过 来 又 能 使 企业 最 大 程度 的 处 理 
自身 的 计算 资源 ， 但 这 仍 需 要 系统 管理 员 为 终端 用 户 提供 虚拟 机 。 

虚拟 化 是 指 计算 机 元 件 在 虚拟 的 基础 上 而 不 是 真实 的 基础 上 运行 。 虚 拟 化 技术 可 以 扩大 


硬件 的 容量 ， 简 化 软件 的 





EE 新 配置 过 程 。CPU 的 虚拟 化 技术 可 以 单 CPU 模拟 多 CPU 并 行 ， 


允许 一 个 平台 同时 运行 多 个 操作 系统 ， 并 且 应 用 程序 都 可 以 在 相互 独立 的 空间 内 运行 而 互 不 
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影响 ， 从 而 显著 提高 计算 机 的 工作 效率 。 虚 拟 化 实现 了 IT 资源 的 逻辑 抽象 和 统一 表示 ， 在 大 
规模 数据 中 心 管理 和 解决 方案 交付 方面 发 挥 着 巨大 的 作用 ， 是 支撑 云 计 算 伟大 构想 的 最 重要 
的 技术 基石 。 

虽然 虚拟 化 和 云 计 算 并 非 是 捆绑 技术 ， 但 二 者 可 以 通过 优势 互补 为 用 户 提供 更 优质 的 服 
务 。 云 计算 方案 使 用 虚拟 化 技术 使 整个 IT 基础 设施 的 资源 部 署 更 灵活 。 反 过 来 ， 虚 拟 化 方案 
也 可 以 引入 云 计算 的 理念 ， 为 用 户 提供 按 需 使 用 的 资源 和 服务 。 在 一 些 特定 业务 中 ， 云 计算 
和 虚拟 化 是 分 不 开 的 ， 只 有 同时 应 用 两 项 技术 ， 服 务 才能 顺利 开展 。 表 2-1 给 出 了 出 几 种 虚 
拟 化 软件 性 能 对 比 。 











表 2-1 几 种 虚拟 化 软件 性 能 对 比 


Attribute Zones 


CPU Performance pe high (with CPU suppor) high (with CPU support) 
CPU Allocation flexible (FSS + “bursting”) fixed to VCPU limit fixed to VCPU limit 


LO Throughput high (no intrinsic overhead) low or medium (with low or medium (with paravirt) 
paravirt) 
LO Latency low (no intrinsic overhead) some (IO proxy some (1/O proxy overhead) 
overhead) 
Memory Access some (EPT/NPT or some (EPT/NPT or shadow page 
Overhead shadow page tables) tables) 
Memory Loss some (extra kemels; some (extra kernels; page tables) 
page tables) 
Memory Allocation flexible (unused guest memory fixed (and possible fixed (and possible double- 
used for file system cache) double-caching) caching) 
Resource [ee | many (depends on OS) some (depends on most (OS + hypervisor) 
hypervisor) 
es from highest (see everything) low (resource usage, medium (resource usage, 
the host hypervisor statistics) hypervisor statistics, OS 
inspection of hypervison) 
Observability: from medium (see everything low (guest only) low (guest only) 
the guest permitted, incl. some physical 
Tesource ee 
low (OS partitions) high (complex | 
Cr hypervisor) 
Different OS Guests usually no (sometimes possible 
with syscall translation) 


表 中 的 三 列 代 表 三 种 不 同 的 类 型 : 操作 系统 虚拟 化 〈Zones) 、 硬 件 虚拟 化 的 类 型 1 
(Xen) 和 类 型 2 (KVM) 。 图 2-6 表示 KVM 寄居 架构 (Linux 内 核 ) 。 
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图 2-6 KVM 寄居 架构 (Linux 内 核 ) 


KVM 重用 了 整个 Linux IO 协议 栈 ， 所 以 KVM 的 用 户 自然 就 获得 了 最 新 的 驱动 和 IO 
协议 栈 的 改进 。 





2.3.5 “分 布 式 计算 

分 布 式 计算 是 利用 互联 网 上 计算 机 的 中 央 处 理 器 的 闲置 处 理 能 力 来 解决 大 型 计算 问题 的 
-种 计算 方法 ， 和 集中 式 计算 是 相对 的 。 随 着 计算 技术 的 发 展 ， 有 些 应 用 如 果 采 用 集中 式 计 
算 ， 需 要 非常 巨大 的 计算 能 力 和 耗费 相当 长 的 时 间 才 能 完成 ， 分 布 式 计 算 将 该 应 用 分 解 成 许 
多 小 的 部 分 ， 分 配给 多 台 计 算 机 进行 处 理 。 这 样 可 以 节约 整体 计算 时 间 ， 大 大 提高 计算 效 
率 。 分 布 式 计算 比 起 其 他 算法 具有 以 下 几 个 优点 : 


@ 稀有 资源 可 以 共享 。 
@ ”通过 分 布 式 计算 可 以 在 多 台 计算 机 上 平衡 计算 负载 。 
@ ”可 以 把 程序 放 在 最 适合 运行 它 的 计算 机 上 。 


其 中 ， 共 享 稀 有 资源 和 平衡 负载 是 计算 机 分 布 式 计算 的 核心 思想 之 一 。 实 际 上 ， SE 
算 就 是 分 布 式 计算 的 一 种 。 如 果 我 们 说 某 项 工作 是 分 布 式 的 ， 那 么 ， 参 与 这 项 工作 的 一 
只 是 一 人 台 计 算 机 ， 而 是 一 个 计算 机 网 络 ， 显 然 这 种 “ 蚁 群 ” il 
力 。 网 格 计算 的 实质 就 是 组 合 与 共享 资源 并 确保 系统 安全 。 


2.3.6 云 监 测 技术 

云 计 算 在 受到 各 界 广泛 关注 的 同时 ， 云 计算 提供 的 服务 质量 也 越 来 越 被 重视 。 云 平台 的 
可 靠 性 是 提供 给 上 层 的 一 切 服务 质量 的 基础 ， 如 何 提高 云 平 台 的 可 靠 性 是 服务 提供 商 重 点 关 
注 的 问题 。 将 监控 机 制 引 入 云 平 台 是 提高 云 平台 可 靠 性 和 服务 质量 的 有 效 途 径 。 利 用 监控 机 
制 可 以 对 异常 状况 实现 预警 ， 防 患 于 未 然 。 同 时 在 故障 发 生 之 后 可 以 通知 平台 管理 人 员 ， 在 
第 一 时 间 进 行 处 理 。 国 外 对 监控 技术 的 研究 相 比 国内 较 早 ， 已 经 有 成 熟 的 产品 。 为 提高 云 计 
算 平台 的 可 靠 性 ， 保 证 服务 质量 ， 必 须 在 云 计算 平台 中 引入 监控 机 制 来 实时 了 解 平台 的 运行 
状况 ， 在 平台 出 现 异常 时 能 起 到 预警 的 作用 ”9。 

如 美国 洛斯 拉 葛 斯 国家 高 级 计算 机 实验 室 开发 的 Supermon 中 集群 监控 系统 ， 利 用 每 个 节 
点 上 的 信息 收集 程序 (mon) 收集 节点 的 状态 信息 ， 数 据 收集 器 (Supermon) 汇总 mon 收集 
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的 数据 进行 处 理 。 虽 然 Supermon 采用 层次 结构 ， 但 是 由 于 系统 中 只 有 一 个 Supermon 节点 ， 

当 节 点 规模 变 大 时 ， 系 统 的 性 能 呈 线 性 下 降 ， 而 且 Supermon 是 系统 的 单一 失效 点 ， 降 低 了 
系统 的 可 靠 性 。 印 度 高 性 能 计算 开发 中 心 研发 的 PARMONP4 利 用 C/S 模式 实现 集群 的 监 
控 ， 集 群 中 的 节点 安装 parmon_server 程序 ， 监 控 端 利用 armon_client 获取 集群 节点 数据 ， 并 
通过 parmon_client 以 图 表 形 式 显示 数据 。 这 种 模式 有 良好 的 用 户 界 面 ， 可 以 直观 地 了 解数 
据 ， 但 是 当 系 统 中 的 节点 数量 过 大 ， 监 控 端 会 因为 需要 处 理 的 数据 过 多 而 产生 较 大 的 时 延 。 

加 州 大 学 伯克利 分 校 开 发 的 Ganglia3 集 群 监控 系统 在 集群 中 的 每 个 节点 上 安装 gmond 程序 
收集 信息 ， 集 群 管理 节点 利用 gmetad 收集 gmond 采集 的 性 能 数据 ， 与 Supermon 不 同 的 是 ， 

集群 中 的 节点 之 间 可 以 通过 组 播 的 形式 广播 收集 到 的 消息 ， 使 消息 在 集群 内 共享 ，Ganglia 的 
树 形 结构 很 适合 系统 的 扩展 ， 具 有 很 高 的 灵活 性 。 在 组 播 的 模式 下 ， 当 节点 规模 过 大 ， 组 播 
对 系统 性 能 会 产生 一 定 的 影响 。 这 几 款 监控 工具 主要 侧重 于 性 能 指标 的 监控 ， 对 于 网 络 服务 
监控 和 故障 报警 的 功能 相对 缺乏 ，NagiosPg 的 出 现 正 好 解决 了 这 些 问 题 。Nagios 是 一 款 功能 
强大 的 网 络 服务 和 主机 监控 系统 ， 配 置 故障 条 件 后 利用 内 部 的 4 种 故障 状态 可 以 实现 故障 报 
警 ， 简 单 的 插件 设计 为 Nagios 提供 很 高 的 扩展 性 ， 但 是 Nagios 配置 文件 较 多 ， 配 置 步 骤 烦 
琐 。 

ChukwaP] 是 一 个 开源 的 监控 大 型 分 布 式 系统 的 数据 收集 系统 ， 它 构建 于 HDFS 和 
Map/Reduce 框架 之 上 ， 并 继承 了 Hadoop 优秀 的 扩展 性 和 健壮 性 。 在 数据 分 析 方 面 ， 
Chukwa 拥有 一 套 灵活 、 强 大 的 工具 ， 可 用 于 监控 和 分 析 结 果 来 更 好 地 利用 所 收集 的 数据 结 
果 。 图 2-7 为 Chukwa 整体 系统 架构 。 
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图 2-7 Chukwa 整体 系统 架构 


Chukwa 是 Yahoo 公司 开发 的 Hadoop 之 上 的 数据 采集 /分 析 框 架 ， 主 要 用 于 日 志 采 和 集 /分 
析 。 该 框架 提供 了 采集 数据 的 Agent， 由 Agent 采集 数据 通过 HTTP 发 送 数据 给 Cluster 的 
Collector，Collector 把 数据 搜集 进 Hadoop， 然 后 通过 定期 运行 Map/Reducer 来 分 析 数 据 ， 并 
将 结果 呈现 给 用 户 。 





42 


第 2 章 云 计算 时 代 





本 GS 

并 行 计算 与 云 计算 关系 

所 谓 并 行 计算 分 为 时 间 上 的 并 行 和 空间 上 的 并 行 。 

@ 时间 上 的 并 行 : 是 指 流水 线 技术 ， 这 就 是 并 行 算法 中 的 时 间 并 行 ， 在 同一 时 间 启 动 
两 个 或 两 个 以 上 的 操作 ， 大 大 提高 计算 性 能 。 

@ ”空间 上 的 并 行 : 是 指 多 个 处 理 机 并 发 地 执行 计算 ， 即 通过 网 络 将 两 个 以 上 的 处 理 机 
连接 起 来 ， 达 到 同时 计算 同一 个 任务 的 不 同 部 分 ， 或 者 单个 处 理 机 无 法 解决 的 大 型 
问题 。 


空间 上 的 并 行 导 致 了 两 类 并 行 机 的 产生 ， 按 照 Flynn 的 说 法 分 为 : 单 指令 流 多 数据 流 
(SIMD) 和 多 指令 流 多 数据 流 (MIMD) 。 我 们 常用 的 串 行 机 也 叫做 单 指令 流 单 数据 流 
(SISD) 。MIMD 类 的 机 器 又 可 分 为 以 下 常见 的 五 类 : 并 行 向 量 处 理 机 (PVP) 、 对 称 多 处 
理 机 (SMP) 、 大 规模 并 行 处 理 机 (MPP) 、 工 作 站 机 群 (COW) 、 分 布 式 共享 存储 处 理 机 
(DSM) 。 表 2-2 为 并 行 计 算 概述 。 


表 2-2 并 行 计算 概述 表 


概述 高 性 能 计算 、 云 端 运算 计算 机 集群 分 布 式 计算 网 格 计算 
方式 Bit-level parallelism 和 ge pn pel Data parallelism 任务 并 行 
parallelism 

理论 Speedup Flynn's taxonom: Cost efficienc: 
Gustafson 定理 

元 素 进程 Fiber PRAM 模型 
多 处 理 多 执行 线程 超 执 行 线程 内 存 一 致 性 

协调 Cache coherency Barrier 同步 化 pp a 


checkpointing 


编程 Programming model | Implicit parallelism | Explicit parallelism 
贝 奥 武夫 机 群 对 称 多 处 理 机 | Asymmetre ee 
multiprocessins multithreading 
A Cache only memory More 
硬件 非 均匀 访 存 模型 共享 内 存 Distributed memory 





























Distributed shared memory 超 纯 量 向 量 处 理 机 超级 计算 机 
Stream processing 通用 图 形 处 理 器 
(GPGPU) 
APIs 信息 传递 接口 | Intel Threadint 
POSPE /Meals OpenMP (MPD Building Blocks 
问题 Embarrassingly parallel Grand Challenge Software lockout 可 扩 放 性 
竞争 危害 死 锁 确定 性 算法 


并 行 计算 科学 中 主要 研究 的 是 空间 上 的 并 行 问题 。 从 程序 和 算法 设计 人 员 的 角度 来 看 ， 
并 行 计算 又 可 分 为 数据 并 行 和 任务 并 行 。 一 般 来 说 ， 因 为 数据 并 行 主要 是 将 一 个 大 任务 化 解 
成 相同 的 各 个 子 任务 ， 比 任务 并 行 要 容易 处 理 。 

并 行 计算 机 有 以 下 5 种 访 存 模型 : 

(1) 均匀 访 存 模型 (UMA) 。 
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(2) 非 均匀 访 存 模 型 (NUMA) 。 

(3) 全 高 速 缓存 访 存 模型 (COMA) 。 

(4) 一 致 性 高 速 缓存 非 均匀 存储 访问 模型 (CC-NUMA) 。 
(5) 非 远 程 存储 访问 模型 (NORMA) 。 


2.4.1 并 行 计 算 与 云 计算 
云 计算 是 在 并 行 计算 之 后 产生 的 概念 ， 是 由 并 行 计算 发 展 而 来 ， 两 者 在 很 多 方面 有 着 共 
性 。 但 并 行 计算 不 等 于 云 计算 ， 云 计算 也 不 等 同 并 行 计算 。 两 者 区 别 如 下 : 


1. 云 计算 萌芽 于 并 行 计算 


云 计算 的 萌芽 应 该 从 计算 机 的 并 行 化 开始 ， 并 行 机 的 出 现 是 人 们 不 满足 于 CPU 摩尔 定律 
的 增长 速度 ， 和 希望 把 多 个 计算 机 并 联 起 来 ， 从 而 获得 更 快 的 计算 速度 。 这 是 一 种 很 简单 也 很 
朴素 的 实现 高 速 计算 的 方法 ， 这 种 方法 后 来 被 证 明 是 相当 成 功 的 。 


2. 并 行 计算 、 网 格 计算 只 用 于 特定 的 科学 领域 ， 专 业 的 用 户 


并 行 计算 、 网 格 计算 的 提出 主要 是 为 了 满足 科学 和 技术 领域 的 专业 需要 ， 其 应 用 领域 也 
基本 限于 科学 领域 。 传 统 并 行 计算 机 的 使 用 是 一 个 相当 专业 的 工作 ， 需 要 使 用 者 有 较 高 的 专 
业 素 质 ， 多 数 是 命令 行 的 操作 ， 这 是 很 多 专业 人 士 的 露 梦 ， 更 不 用 说 普通 的 业余 级 用 户 了 。 

3. 并 行 计算 追求 的 高 性 能 

在 并 行 计算 的 时 代 ， 人 们 极力 追求 的 是 高 速 的 计算 、 采 用 昂贵 的 服务 器 ， 各 国 不 惜 代价 
在 计算 速度 上 超越 他 国 ， 因 此 ， 并 行 计算 时 代 的 高 性 能 机 群 是 一 个 “快速 消费 品 ”， 世 界 
TOP500 高 性 能 计算 机 的 排名 不 断 地 在 刷新 ， 一 台大 型 机 群 如 果 在 3 年 左右 不 能 得 到 有 效 地 
利用 就 远 远 地 落后 了 ， 巨 额 投资 无 法 收回 。 


4. 云 计 算 对 于 单 节点 的 计算 能 力 要 求 低 


云 计算 时 代 并 不 去 追求 使 用 昂贵 的 服务 器 ， 云 中 心 的 计算 力 和 存储 力 可 随 着 需要 逐步 增 
加 ， 云 计算 的 基础 架构 支持 这 一 动态 增加 的 方式 ， 高 性 能 计算 将 在 云 计算 时 代 成 为 “耐用 消 


口 ?9 
HA o 


云 计算 是 一 种 理念 ， 它 实际 上 是 分 布 式 技术 + 服务 化 技术 + 资源 阳 离 和 管理 技术 (虚拟 
化 ) ; 把 IT 资源 、 数 据 、 应 用 作为 服务 通过 网 络 提供 给 用 户 ， 把 大 量 的 高 度 虚 拟 化 的 资源 管 
理 起 来 ， 组 成 一 个 大 的 资源 池 ， 用 来 统一 提供 服务 ， 以 公开 的 标准 和 服务 为 基础 ， 以 互联 网 
为 中 心 ， 提 供 安全 、 快 速 、 便 捷 的 数据 存储 和 网 络 计算 服务 。 图 2-8 为 云 计算 示意 图 。 
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图 2-8 云 计算 示意 图 
云 计 算 往往 是 图 2-8 这 个 架构 图 包含 的 内 容 ， 开 发 者 利用 云 API 开发 应 用 ， 然 后 上 传 到 
云 上 托管 ， 并 提供 给 用 户 使 用 ， 而 不 关心 云 背后 的 运 维和 管理 ， 以 及 机 器 资源 分 配 等 问题 。 


2.4.2 MapReduce 

MapReduce 是 一 种 编程 模型 ， 用 于 大 规模 数据 集 (大 于 1TB) 的 并 行 运算 。 概 念 “Map 

(映射 )” 和 “Reduce( 归 约 ) ”， 是 它们 的 主要 思想 ， 都 是 从 函数 式 编程 语言 及 矢量 编程 

语言 里 借 来 的 特性 。 它 极 大 地 方便 了 编程 人 员 在 不 会 分 布 式 并 行 编程 的 情况 下 ， 将 自己 的 程 
序 运 行 在 分 布 式 系统 上 。 当前 的 软件 实现 是 指定 一 个 Map〈 上 映射 ) 函数 ， 用 来 把 一 组 键 什 
对 映射 成 一 组 新 的 键 值 对 ， 指 定 并 发 的 Reduce〈 归 约 ) 函数 ， 用 来 保证 所 有 映射 的 键 值 对 中 
的 每 一 个 共享 相同 的 键 组 Cg。 

MapReduce 分 布 可 靠 ，MapReduce 通过 把 对 数据 集 的 大 规模 操作 分 发 给 网 络 上 的 每 个 节 
点 实现 可 靠 性 ; 每 个 节点 会 周期 性 地 返回 它 所 完成 的 工作 和 最 新 的 状态 。 如 果 一 个 节点 保持 
沉默 超过 一 个 预 设 的 时 间 间 隔 ， 主 节点 〈 类 同 Google File System 中 的 主 服 务 器 ) 记录 下 这 个 
节点 状态 为 死亡 ， 并 把 分 配给 这 个 节点 的 数据 发 到 别 的 节点 。 每 个 操作 使 用 命名 文件 的 原子 
操作 以 确保 不 会 发 生 并 行 线程 间 的 冲突 ; 当 文 件 被 改名 的 时 候 ， 系 统 可 能 会 把 他 们 复制 到 任 
务 名 以 外 的 另 一 个 名 字 上 去 9。 

在 Google，MapReduce 用 在 非常 广泛 的 应 用 程序 中 ， 包 括 “ 分 布 grep、 分 布 排序 、Web 
连接 图 反 转 、 每 台 机 器 的 词 矢 量 、Web 访问 日 志 分析 、 大 规模 的 算法 图 形 处 理 、 反 向 索引 构 
建 、 文 档 聚 类 、 数 据 挖掘 、 机 器 学 习 、 文 字 处 理 、 统 计 机 器 翻译 以 及 众多 其 他 领域 。” 值 得 
注意 的 是 ，MapReduce 实现 以 后 ， 它 被 用 来 重新 生成 Google 的 整个 索引 ， 并 取代 老 的 ad hoc 
程序 去 更 新 索引 。MapReduce 会 生成 大 量 的 临时 文件 ， 为 了 提高 效率 ， 它 利用 Google 文件 系 
统 来 管理 和 访问 这 些 文件 。 

Nutch 项 目 开 发 了 一 个 实验 性 的 MapReduce 的 实现 ， 也 即 是 后 来 大 名 易 易 的 
HadoopB9 。 

Phoenix 是 斯 坦 福 大 学 开发 的 基于 多 核 /多 处 理 器 、 共 享 内 存 的 MapReduce 实现 B1。 

MapReduce 提供 了 以 下 的 主要 功能 : 


1. 数据 划分 和 计算 任务 调度 
系统 自动 将 一 个 作业 〈Job) 待 处 理 的 大 数据 划分 为 很 多 个 数据 块 ， 每 个 数据 块 对 应 于 一 
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个 计算 任务 〈Task) ， 并 自动 调度 计算 节点 来 处 理 相应 的 数据 块 。 作 业 和 任务 调度 功能 主要 
负责 分 配 和 调度 计算 节点 (Map 节点 或 Reduce 节点 ) ， 同 时 负责 监控 这 些 节 点 的 执行 状 
态 ， 并 负责 Map 节点 执行 的 同步 控制 。 


2. 数据 /代码 互 定位 


为 了 减少 数据 通信 ， 一 个 基本 原则 是 本 地 化 数据 处 理 ， 即 一 个 计算 节点 尽 可 能 处 理 其 本 
地 磁盘 上 记分 布 存储 的 数据 ， 这 实现 了 代码 向 数据 的 迁移 ， 当 无 法 进行 这 种 本 地 化 数据 处 理 
时 ， 再 寻找 其 他 可 用 节点 并 将 数据 从 网 络 上 传送 给 该 节点 〈 数 据 向 代码 迁移 ) ， 但 将 尽 可 能 
从 数据 所 在 的 本 地 机 架 上 寻找 可 用 节点 以 减少 通信 延迟 。 


3. 系统 优化 


为 了 减少 数据 通信 开销 ， 中 间 结 果 数 据 进入 Reduce 节点 前 会 进行 一 定 的 合并 处 理 ， 一 个 
Reduce 节点 所 处 理 的 数据 可 能 会 来 自 多 个 Map 节点 ， 为 了 避免 Reduce 计算 阶段 发 生 数据 相 
关 性 ，Map 节点 输出 的 中 间 结 果 需 使 用 一 定 的 策略 进行 适当 的 划分 处 理 ， 保 证 相关 性 数据 发 
送 到 同一 个 Reduce 节点 ; 此 外 ， 系 统 还 进行 一 些 计算 性 能 优化 处 理 ， 如 对 最 慢 的 计算 任务 
采用 多 备份 执行 、 选 最 快 完成 者 作为 结果 。 


4. 出 错 检测 和 恢复 


在 低 端 商用 服务 器 构成 的 大 规模 MapReduce 计算 集群 中 ， 节 点 硬件 (主机 、 磁 盘 、 内 存 
等 ) 出 错 和 软件 出 错 是 常态 ， 因 此 MapReduce 需要 能 检测 并 隔离 出 错 节点 ， 并 调度 分 配 新 
的 车 点 接管 出 错 节点 的 计算 任务 。 同 时 ， 系 统 还 将 维护 数据 存储 的 可 靠 性 ， 用 多 备份 元 余 存 
储 机 制 提 高 数据 存储 的 可 靠 性 ， 并 能 及 时 检测 和 恢复 出 错 的 数据 。 


MapReduce 擅 代 码 

Map 函数 和 Reduce 函数 是 交 给 用 户 实现 的 ， 这 两 个 函数 定义 了 任务 本 身 。 

Map 函数 : 接受 一 个 键 值 对 (key-value pair) ， 产 生 一 组 中 间 键 值 对 。MapReduce 框架 
会 将 map 函数 产生 的 中 间 键 值 对 里 键 相 同 的 值 传递 给 一 个 reduce 函数 。 





Reduce 函数 : 接受 一 个 键 ， 以 及 相关 的 一 组 值 ， 将 这 组 值 进行 合并 产生 一 组 规模 更 小 的 
值 〈 通 常 只 有 一 个 或 零 个 值 ) 。 
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MapReduce 提供 了 一 种 抽象 机 制 将 程序 员 与 系统 层 细节 隔离 开 来 ， 程 序 员 仅 需 描述 需要 
计算 什么 (What to compute) ， 而 具体 怎么 去 计算 (How to compute) 就 交 由 系统 的 执行 框 
架 处 理 ， 这 样 程 序 员 可 从 系统 层 细 节 中 解放 出 来 ， 而 致力 于 其 应 用 本 身 计 算 问 题 的 算法 
设计 。 

2-9 为 MapReduce 工作 原理 执行 流程 。 一 切 都 是 从 最 上 方 的 user program 开始 的 ， 
user program 链接 了 MapReduce 库 ， 实 现 了 最 基本 的 Map 函数 和 Reduce 函数 。 
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2-9 MapReduce 工作 原理 执行 流程 


函数 说 明 pid_t fork( void): 一 个 现 有 进程 可 以 调用 fork 函数 创建 一 个 新 进程 。 由 fork 创 
建 的 新 进程 被 称 为 子 进 程 。fork 函数 被 调用 一 次 但 返回 两 次 。 两 次 返回 的 唯一 区 别 是 子 进程 
中 返回 0 值 而 父 进程 中 返回 子 进 程 ID。 子 进程 是 父 进 程 的 副本 ， 它 将 获得 父 进程 数据 空间 、 
堆 、 栈 等 资源 的 副本 。 注 意 ， 子 进程 持 有 的 是 上 述 存储 空间 的 “副本 ”， 这 意味 着 父子 进程 
间 不 共享 这 些 存储 空间 。 


(1) MapReduce 库 先 把 user program 的 输入 文件 划分 为 M 份 (M 为 用 户 定义 ) ， 每 一 
份 通常 有 16MB 到 64MB， 如 图 2-9 左 方 所 示 分 成 了 split0~4 (文件 块 ); 然后 使 用 fork 将 用 
户 进 程 复 制 到 集群 内 其 他 机 器 上 。 

(2) user program 的 副本 中 有 一 个 称 为 Master， 其 余 称 为 worker，Master 是 负责 调度 
的 ， 为 空闲 worker 分 配 作业 (map 作业 或 Reduce 作业 ) ，worker 数量 可 由 用 户 指定 。 

(3) 被 分 配 了 Map 作业 的 worker， 开 始 读 取 对 应 文件 块 的 输入 数据 ，Map 作业 数量 是 
由 M 决定 的 ， 和 split 一 一 对 应 ， Map 作业 (包含 多 个 map 函数 ) 从 输入 数据 中 抽取 出 键 值 对 ， 
每 一 个 键 值 对 都 作为 参数 传递 给 map 函数 ，map 函数 产生 的 中 间 键 值 对 被 缓存 在 内 存 中 。 
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(4) 缓存 的 中 间 键 值 对 会 被 定期 写 入 本 地 磁盘 。 主 控 进程 知道 Reduce 的 个 数 ， 比 如 RR 
个 (通常 用 户 指定 ) 。 然 后 主 控 进 程 通常 选择 一 个 哈 希 函数 作用 于 键 并 产生 0~R-1 个 桶 编 
号 。Map 任务 输出 的 每 个 键 都 被 哈 希 起 作用 ， 根 据 哈 希 结果 将 Map 的 结果 存放 到 R 个 本 地 
文件 中 的 一 个 〈 后 来 每 个 文件 都 会 指派 一 个 Reduce 任务 ) 。 

(5) Master 通知 分 配 了 Reduce 作业 的 worker 负责 的 分 区 在 什么 位 置 。 当 Reduce 
worker 把 所 有 它 负 责 的 中 间 键 值 对 都 读 过 来 后 ， 先 对 它们 进行 排序 ， 使 得 相同 键 的 键 值 对 聚 
集 在 一 起 。 因 为 不 同 的 键 可 能 会 映射 到 同一 个 分 区 也 就 是 同一 个 Reduce 作业 《【 谁 让 分 区 少 
呢 ) ， 所 以 排序 是 必需 的 。 

(6) Reduce worker 遍历 排序 后 的 中 间 键 值 对 ， 对 于 每 个 唯一 的 键 ， 都 将 键 与 关联 的 值 
传递 给 reduce 函数 ，reduce 函数 产生 的 输出 会 添加 到 这 个 分 区 的 输出 文件 中 。 

(7) 当 所 有 的 Map 和 Reduce 作业 都 完成 了 ，Master 唤醒 正版 的 user program， 
MapReduce 函数 调用 返回 user program 的 代码 。 

(8) 所 有 执行 完毕 后 ，MapReduce 输出 放 在 了 R 个 分 区 的 输出 文件 中 〈 分 别 对 应 一 个 
Reduce 作业 ) 。 用 户 通常 并 不 需要 合并 这 R 个 文件 ， 而 是 将 其 作为 输入 交 给 另 一 个 
MapReduce 程序 处 理 。 整 个 过 程 中 ， 输 入 数据 是 来 自 底层 分 布 式 文件 系统 (GFS) 的 ， 中 间 
数据 是 放 在 本 地 文件 系统 的 ， 最 终 输 出 数据 是 写 入 底层 分 布 式 文件 系统 (GFS) 的 。 而 且 我 
们 要 注意 Map/Reduce 作业 和 map/reduce 函数 的 区 别 : Map 作业 处 理 一 个 输入 数据 的 分 片 ， 
可 能 需要 调用 多 次 map 函数 来 处 理 每 个 输入 键 值 对 ，Reduce 作业 处 理 一 个 分 区 的 中 间 键 值 
对 ， 期 间 要 对 每 个 不 同 的 键 调用 一 次 reduce 函数 ，Reduce 作业 最 终 也 对 应 一 个 输出 文件 。 


以 下 是 在 客户 端 、JobTracker、TaskTracker 的 层次 来 分 析 MapReduce 的 工作 原理 ， 如 图 
2-10 所 示 MapReduce 作业 运行 流程 。 
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图 2-10 MapReduce 作业 运行 流程 图 
图 2-10 MapReduce 作业 运行 流程 分 析 如 下 : 
(1) 在 客户 端 启动 一 个 作业 。 
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(2) 向 JobTracker 请 求 一 个 Job ID 。 


(3) 将 运行 作业 所 需要 的 资源 文件 复制 到 HDFS 上 ， 包 括 MapReduce 程序 打包 的 JAR 
文件 、 配 置 文 件 和 客户 端 计算 所 得 的 输入 划分 信息 。 这 些 文件 都 存放 在 JobTracker 专门 为 该 
作业 创建 的 文件 夹 中 。 文 件 夹 名 为 该 作业 的 Job ID，JAR 文件 默认 会 有 10 个 副本 

(mapred.submit.replication 属性 控制 ) ， 输 入 划分 信息 告诉 了 JobTracker 应 该 为 这 个 作业 启 
动 多 少 个 Map 任务 等 信息 。 

(4) JobTracker 接收 到 作业 后 ， 将 其 放 在 一 个 作业 队列 里 ， 等 竺 作业 调度 器 对 其 进行 调 
度 ， 当 作业 调度 器 根据 自己 的 调度 算法 调度 到 该 作业 时 ， 会 根据 输入 划分 信息 为 每 个 划分 创 
建 一 个 Map 任务 ， 并 将 Map 任务 分 配给 TaskTracker 执行 。 对 于 Map 和 Reduce 任务 ， 
TaskTracker 根据 主机 核 的 数量 和 内 存 的 大 小 有 固定 数量 的 Map 槽 和 Reduce 模 。 这 里 需要 强 
调 的 是 ，Map 任务 不 是 随 随便 便 地 分 配给 某 个 TaskTracker 的 ， 这 里 有 个 概念 叫 ， 数 据 本 地 化 

(Data-Local) 。 意 思 是 : 将 Map 任务 分 配给 含有 该 Map 处 理 的 数据 块 的 TaskTracker 上 ， 
同时 将 程序 JAR 包 复 制 到 该 TaskTracker 上 来 运行 ， 这 叫 “ 运 算 移动 ， 数 据 不 移动 ”。 而 分 
配 Reduce 任务 时 并 不 考虑 数据 本 地 化 。 

(5) TaskTracker 每 隔 一 段 时 间 会 给 JobTracker 发 送 一 个 心跳 ， 告 诉 JobTracker 它 依然 在 
运行 ， 同 时 心跳 中 还 携带 着 很 多 的 信息 ， 比 如 当前 Map 任务 完成 的 进度 等 信息 。 当 
JobTracker 收 到 作业 的 最 后 一 个 任务 完成 信息 时 ， 便 把 该 作业 设置 成 “成 功 ”。 当 JobClient 
查询 状态 时 ， 它 将 得 知 任务 已 完成 ， 便 显示 一 条 消息 给 用 户 。 


Map、Reduce 任务 中 Shuffle 和 排序 的 过 程 


shuffle 和 排序 是 发 生 在 作业 执行 阶段 ， 上 有 具体 说 是 发 生 在 将 map 输出 到 reduce 输入 之 间 的 
过 程 。shuffle 主要 包括 复制 、 排 序 、reduce 处 理 等 阶段 。shuffle 属于 不 断 被 优化 和 改进 的 代 
码 库 的 一 部 分 ， 从 许多 方面 来 看 ，shuffle 是 Mapreduce 的 “心脏 ”， 是 奇迹 发 生 的 地 方 。 图 
2-11 为 Map、Reduce 任务 中 Shuffle 和 排序 的 过 程 。 
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图 2-11 Map、Reduce 任务 中 Shuffle 和 排序 的 过 程 
Map 输出 端 ( 分 区 、 排 序 》 
由 于 MapReduce 确保 每 个 Reducer 的 输入 都 按键 排序 。map 函数 开始 产生 输出 时 ， 并 不 
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是 简单 地 将 它 写 到 磁盘 ， 而 是 先 利用 缓冲 的 方式 写 到 内 存 ， 在 内 存 里 对 键 进行 排序 。 这 期 间 
的 过 程 : 


(1) 线程 首先 将 要 传送 的 Reduce 的 数据 划分 成 与 相应 的 分 区 对 应 。 

(2) 在 每 个 分 区 中 ， 后 台 线程 按键 进行 内 排序 。 

(3) 如 果 有 一 个 combiner， 他 会 在 排序 后 的 输出 上 运行 。 如 果 果 真 制定 combine， 则 
combiner 就 会 在 输出 文件 写 磁盘 之 前 运行 。 运 行 combiner 的 意义 在 于 使 Map 输出 更 紧凑 ， 
这 样 写本 地 磁盘 和 传 给 Reducer 的 数据 更 少 。 

(4) 写 磁盘 时 压缩 Map 输出 往往 是 个 好 主意 ， 因 为 这 样 会 让 写 磁盘 的 速度 更 快 ， 节 约 
磁盘 空间 ， 并 且 减 少 传 给 Map 的 数据 量 。 默 认 情 况 下 ， 输 出 是 不 压缩 的 ， 但 是 要 将 
mapred.compress.map.output 设置 为 tue， 就 可 以 轻松 地 启用 此 功能 。 使 用 的 压缩 库 由 
mapred.map.output.compression.codec 指定 。 


(5) reducer 通过 HTTP 方式 得 到 磁盘 上 排序 后 的 输出 文件 的 分 区 。 
Reduce 输入 端 (复制 、 合 并 、Reduce 阶段 ) 


(1) 每 个 Map 完成 的 时 间 不 同 ， 因 此 一 个 Map 任务 完成 ，Reduce 就 开始 复制 其 输出 ， 
这 就 是 复制 阶段 。Reduce 任务 有 少量 复制 线程 ， 因 此 能 够 并 行 取得 Map 输出 。 默 认 值 是 5 
个 线程 ， 但 这 个 默认 值 可 以 通过 mapred.reduce.parallel.copies 属性 来 改变 。Reducer 中 的 一 个 
线程 定期 询问 jobtracker 以 便 获取 Map 输出 的 位 置 。 如 果 Map 输出 相当 小 ， 则 会 被 复制 到 
Reduce tasktracker 的 内 存 。 和 否则 ， 被 缓冲 式 地 复制 到 磁盘 。 

(2) 随 着 磁盘 上 的 副本 增多 ， 后 台 线 程 会 将 他 们 合并 为 更 大 的 、 排 好 序 的 文件 ， 这 就 是 
合并 阶段 。 这 会 为 后 面 的 合并 节省 一 点 时 间 。 注 意 : 为 了 合并 ， 压 缩 的 Map 输出 都 会 在 内 存 
中 解压 缩 。 

(3) Reduce 阶段 : 对 已 排序 输出 中 的 每 个 键 都 要 调用 Reduce 函数 。 此 阶段 的 输出 直接 
写 到 输出 文件 系统 HDFS 。 

图 2-11 Map、Reduce 任务 中 Shuffle 和 排序 的 过 程 流程 分 析 如 下 。 


Map 端 


(1) 每 个 输入 分 片 会 让 一 个 map 任务 来 处 理 ， 默 认 情 况 下 ， 以 HDFS 的 一 个 块 的 大 小 
(默认 为 64MB) 为 一 个 分 片 ， 我 们 也 可 以 设置 块 的 大 小 Map 输出 的 结果 会 暂且 放 在 一 个 环 
形 内 存 缓 冲 区 中 该 缓冲 区 的 大 小 默认 为 100MB， 由 io.sort.mb 属性 控制 ) ， 当 该 缓冲 区 快 
要 溢出 时 (默认 为 缓冲 区 大 小 的 80%， 由 io.sort.spill.percent 属性 控制 ) ， 会 在 本 地 文件 系统 
中 创建 一 个 溢出 文件 ， 将 该 缓冲 区 中 的 数据 写 入 这 个 文件 。 

(2) 在 写 入 磁盘 之 前 ， 线 程 首先 根据 Reduce 任务 的 数目 将 数据 划分 为 相同 数目 的 分 区 ， 
也 就 是 一 个 Reduce 任务 对 应 一 个 分 区 的 数据 。 这 样 做 是 为 了 避免 有 些 Reduce 任务 分 配 到 大 量 
数据 ， 而 有 些 Reduce 任务 却 分 到 很 少数 据 ， 甚 至 没有 分 到 数据 的 尴 谊 局 面 。 其 实 分 区 就 是 对 
数据 进行 Hash 的 过 程 。 然 后 对 每 个 分 区 中 的 数据 进行 排序 ， 如 果 此 时 设置 了 Combiner， 将 排 
序 后 的 结果 进行 Combi 操作 ， 这 样 做 的 目的 是 让 尽 可 能 少 的 数据 写 入 到 磁盘 。 

(3) 当 Map 任务 输出 最 后 一 个 记录 时 ， 可 能 会 有 很 多 的 溢出 文件 ， 这 时 需要 将 这 些 文 
件 合并 。 合 并 的 过 程 中 会 不 断 地 进行 排序 和 Combi 操作 ， 目 的 有 两 个 : 一 是 尽量 减少 每 次 写 
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入 人 磁盘 的 数据 量 ， 二 是 尽量 减少 下 一 复制 阶段 网 络 传输 的 数据 量 。 最 后 合并 成 了 一 个 已 分 区 
且 已 排序 的 文件 。 为 了 减少 网 络 传输 的 数据 量 ， 这 里 可 以 将 数据 压缩 ， 只 需要 将 
mapred.compress.map.out 设置 为 true。 

(4) 将 分 区 中 的 数据 复制 给 相对 应 的 Reduce 任务 。 有 人 可 能 会 问 : 分 区 中 的 数据 怎么 
知道 它 对 应 的 Reduce 是 哪个 呢 ? 其 实 Map 任务 一 直 和 其 父 TaskTracker 保持 联系 ， 而 
TaskTracker 又 一 直 和 JobTracker 保持 心跳 。 所 以 JobTracker 中 保存 了 整个 集群 中 的 宏观 信 
息 。 只 要 Reduce 任务 向 JobTracker 获取 对 应 的 Map 输出 位 置 。 

那 到 底 什么 是 Shuffle 呢 ? Shuffle 的 中 文 意思 是 “ 洗 牌 ”， 如 果 我 们 这 样 看 : 一 个 Map 
产生 的 数据 ， 结 果 通过 HASH 过 程 分 区 却 分 配给 了 不 同 的 Reduce 任务 ， 是 不 是 一 个 对 数据 
洗 牌 的 过 程 呢 ? 


Reduce 端 


(1) Reduce 会 接收 到 不 同 Map 任务 传 来 的 数据 ， 并 且 每 个 Map 传 来 的 数据 都 是 有 序 
的 。 如 果 Reduce 端 接受 的 数据 量 相当 小 ， 则 直接 存储 在 内 存 中 《缓冲 区 大 小 由 
mapred.job.shuffle.input.buffer.percent 属性 控制 ， 表 示 用 作 此 用 途 的 堆 空间 的 百分比 ) ， 如 果 
数据 量 超过 了 该 缓冲 区 大 小 的 一 定 比例 由 mapredjob.shuffle.merge.percent 决定 ) ， 则 对 数 
据 合 并 后 溢 写 到 磁盘 中 。 

(2) 随 着 溢 写 文件 的 增多 ， 后 台 线 程 会 将 它们 合并 成 一 个 更 大 的 有 序 的 文件 ， 这 样 做 是 
为 了 给 后 面 的 合并 节省 时 间 。 其 实 不 管 在 Map 端 还 是 Reduce 端 ，MapReduce 都 是 反复 地 执 
行 排序 ， 合 并 操作 ， 现 在 终于 明白 了 有 些 人 为 什么 会 说 : 排序 是 Hadoop 的 灵魂 。 

(3) 合并 的 过 程 中 会 产生 许多 的 中 间 文 件 〈 写 入 磁盘 了 ) ， 但 MapReduce 会 让 写 入 磁盘 的 
数据 尽 可 能 地 少 ， 并 且 最 后 一 次 合并 的 结果 并 没有 写 入 磁盘 ， 而 是 直接 输入 到 Reduce 函数 。 


2. 5 云 计算 发 展 优势 
市 场 研究 公司 评选 出 2011 年 对 多 数组 织 最 具 战 略 意义 的 十 大 技术 和 趋势 ， 云 计算 居 
首 。 ed 云 计算 正 是 最 符合 条 件 的 战略 技术 ， 是 时 代 发 展 的 必然 趋势 。 戴 尔 数据 中 心 解决 
方案 部 门 在 最 近 戴 尔 迈 向 云 计算 之 旅 的 演讲 中 形容 云 计算 的 热度 时 这 样 说 : “有 人 认为 云 计 
算 无 所 不 能 ， 甚 至 能 够 解决 全 球 的 饥饿 问题 。” 毫 无 疑问 ， 云 计算 已 经 成 为 IT 业 的 主旋律 : 
无 论 是 亚 马 示 、Google， 还 是 IBM、 微 软 几乎 都 异口同声 地 将 “ 云 ” 定 为 未 来 的 发 展 重心 。 

2010 年 可 以 称 为 “中 国 的 云 计算 落地 之 年 ”，2011 年 云 计算 在 各 个 行业 的 各 种 应 用 中 已 
经 开始 锯 露 头角 。 各 种 缂 新 的 云 计算 应 用 概念 也 被 提出 来 ， 比 如 智慧 城市 、 虚 拟 化 、 公 共 
云 、 私 有 云 ， 云 存储 。 特 别 是 伴随 着 阿里 云 、 百 度 云 、 八 百 客 、 用 友 伟 库 等 云 计算 厂商 的 兴 
起 ， 更 是 让 云 计 算 变 得 炙手可热 。 

近年 来 ， 对 于 打造 高 度 可 扩展 的 应 用 程序 ， 软 件 架构 师 们 挖掘 了 若干 相关 理念 ， 并 以 最 
佳 实践 的 方式 加 以 实施 。 在 今天 的 “信息 时 代 ”， 这 些 理念 更 加 适用 于 不 断 增长 的 数据 集 、 
不 可 预知 的 流量 模式 ， 以 及 快速 响应 时 间 的 需求 。 
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. 云 计算 的 商业 优势 


前 期 基础 设施 投资 几乎 为 零 。 

基础 设施 即时 性 。 

更 有 效 地 利用 资源 。 

根据 使 用 计算 成 本 。 

缩短 产品 上 市 时 间 。 

云 计算 的 技术 优势 

自动 化 : “脚本 化 的 基础 设施 ”， 可 以 通过 充分 利用 可 编程 (API 驱动 的 ) 基础 设 
施 ， 可 重用 构建 和 部 署 系统 

自动 扩展 : 无 须 任 何人 工 干预 ， 就 可 以 根据 需求 对 应 用 进行 双向 扩展 。 自 动 缩放 提 
高 了 自动 化 程度 从 而 更 加 高 效 。 

主动 扩展 : 基于 需求 预期 和 流量 模式 的 合理 规划 ， 可 以 对 应 用 进行 双向 扩展 ， 从 而 
保持 低 成 本 运营 。 

更 有 效 的 开发 周期 : 可 以 很 容易 地 克隆 开发 和 测试 环境 到 生产 系统 。 不 同 阶段 的 环 
境 可 以 很 容易 地 推广 到 生产 系统 。 

改进 的 可 测 性 : 不 需要 进行 硬件 耗 尽 的 测试 。 注 入 和 自动 化 测试 能 够 持续 在 开发 过 
程 的 每 一 个 阶段 。 我 们 可 以 建立 一 个 预 配置 环境 一 一 “即时 测试 实验 室 ”， 仅 用 于 
一 段 时 间 的 测试 。 

灾难 恢复 和 业务 连续 性 : 云 服 务 为 维护 一 系列 DR 服务 器 和 数据 存储 提高 了 低 成 本 
选择 。 使 用 云 服务 ， 你 可 以 在 几 分 钟 内 完成 将 某 一 地 点 的 环境 复制 到 其 他 地 域 的 云 
环境 中 。 

流量 溢出 到 云 环 境 : 通过 几 次 点 击 和 有 效 的 负载 均衡 策略 ， 可 以 创建 路 由 ， 将 超出 
的 访问 流量 转移 到 云 环境 中 的 一 个 完整 的 防 溢 应 用 程序 。 


云 计算 在 设计 上 提供 了 概念 上 的 无 限 可 扩展 。 但 是 ， 如 果 你 的 架构 部 署 是 可 扩展 的 ， 也 
无 法 使 用 到 云 计 算 的 可 扩展 性 带 来 的 优势 。 你 必须 确定 架构 中 的 瓶颈 和 单 点 组 件 ， 确 定 架构 
中 哪些 是 不 能 按 需 部 署 的 部 分 ， 然 后 重 构 应 用 来 调整 为 可 扩展 的 架构 ， 从 而 获得 云 计 算 的 益 
处 。 在 架构 设计 时 要 铭记 于 心 ， 基 础 设施 和 应 用 架构 要 协同 工作 完成 可 扩展 性 。 图 2-12 解释 
了 一 个 云 应 用 架构 中 按 需 扩展 的 不 同方 法 。 


WR 
机 会 成 本 —” 


前 对 前 入 出 而 




















图 2-12 云 应 用 架构 中 按 需 扩展 的 不 同方 法 
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@ 放大 扩展 的 途径 : 使 用 可 扩展 的 应 用 架构 不 用 担心 为 了 满足 需求 而 大 规模 投资 以 及 
购买 更 强大 的 服务 器 (垂直 扩展 ) ， 这 种 方法 通常 工作 到 一 个 点 ， 但 是 在 新 设备 部 
署 前 就 可 以 降低 成 本 ( 见 图 2-12 中 的 “巨额 资本 破 费 ” ) 或 者 满足 业务 增长 的 需要 
( 见 图 2-12 中 “正在 失去 客户 ” ) 。 
@ ”传统 向 外 扩展 的 途径 : 创建 水 平 扩展 的 架构 和 投资 小 块 的 基础 设施 。 大 多 数 业 务 或 
大 规模 Web 应 用 都 采用 如 下 的 模式 : 分 布 式 应 用 组 件 、 联 合 数据 集 和 SOA 的 设 
计 。 这 种 方法 通常 比 放大 扩展 更 有 效 。 然 而 ， 这 需要 准确 的 业务 预期 才能 实现 满足 
需求 的 部 署 ， 经 常会 导致 容量 过 剩 ( “ 烧 钱 ” ) 和 持续 人 工 监测 ( “浪费 人 力 成 
本 ”) 。 此 外 ， 如 果 遇 到 业务 的 爆发 式 增长 ， 系 统 将 无 法 正常 工作 。 
传统 结构 一 般 要 预测 几 年 内 系统 所 需 资源 的 数量 ， 如 果 预 计 不 足 ， 应 用 将 没有 马力 处 理 
预期 外 的 流量 ， 从 而 导致 客户 的 不 满 。 如 果 预 计 过 高 ， 又 造成 资源 浪费 。 
按 需 部 署 和 弹性 是 云 计 算 的 天 然 方式 〈 自 动弹 性 ) ， 使 基础 设施 与 真实 需求 尽量 匹配 ， 
因而 可 以 提供 资源 利用 率 及 压缩 成 本 。 


了.O 向 云 实现 迁移 


由 于 对 灵活 、 敏 捷 、 高 效 的 基础 设施 的 需求 不 断 增加 ， 企 业 管 理 都 趋向 云 计 算 解 决 方 
案 。 在 过 去 ， 大 多 数 的 IT 架构 和 关键 任务 应 用 程序 被 保存 在 公司 内 部 数据 中 心 内 。 然 而 ， 时 
至 今日 状况 已 经 改变 ， 因 为 很 多 企业 已 经 或 有 计划 将 关键 系统 迁移 到 云 计 算 平 台 。 事 实 上 大 
多 数 企 业 现在 都 明白 ， 实 施 云 计算 和 迁移 的 关键 基础 设施 资源 的 托管 环境 能 带 来 许多 好 处 。 
云 计 算 基 础 设施 指 的 是 支持 云 计 算 模型 计算 需求 的 软件 和 硬件 组 合 ， 包 括 存储 单元 、 服 务 
器 、 虚 拟 化 监控 和 网 络 软件 。 众 多 迁移 到 云 计算 中 的 业务 已 经 充分 享受 到 了 云 计 算 带 来 的 便 
利 ， 以 下 是 业务 应 该 转移 到 云 计算 的 十 大 理由 。 

1. Cost-efficient 

云 计 算 能 够 降低 硬件 的 高 成 本 ， 用 户 可 以 根据 自己 的 预算 来 选择 业务 模式 。 它 能 够 保证 
用 户 根据 自己 的 需求 付费 ， 而 不 必 为 未 使 用 的 服务 买单 ， 并 且 设 置 系统 也 相对 便宜 。 

2. 增进 合作 ( Increased collaboration ) 


云 计算 能 够 使 得 业务 团队 的 成 员 在 任意 地 点 访问 、 编 辑 并 共享 文档 ， 大 大 提高 生产 力 和 
业务 支持 协作 的 效率 ， 包 括 基 于 云 计算 的 工作 流程 和 文件 共享 应 用 程序 的 实时 更 新 。 


3. 无 颖 集成 ( Seamless integration ) 


已 经 从 孤立 的 应 用 程序 中 有 所 转变 ， 企 业 业 务 更 喜欢 云 计算 提供 的 集成 的 方式 ， 云 计算 
提供 了 一 个 将 基础 设施 服务 、 数 据 管 理 、 发 展 等 集成 到 一 起 的 平台 。 


4. 促进 可 伸缩 性 ( Promotes Scalability ) 
每 个 业务 都 能 够 根据 经 验 进 行 变化 一 扩大、 缩小 或 者 随 着 季节 的 变化 而 变化 ， 云 计算 
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有 能 力 适 应 并 应 对 这 些 变化 ， 这 可 以 根据 业务 的 需要 促进 可 伸缩 性 ， 用 户 不 再 需要 在 扩大 或 
者 缩小 规模 时 不 断 地 改变 软件 。 


5. 提供 良好 的 用 户 控件 ( Offers great user-control ) 

员工 可 以 携带 自己 的 设备 办 公 ， 不 依赖 于 IT 部 门 提供 的 设备 。 这 需要 更 高 水 平 的 用 户 控 
制 ， 其 核心 是 Active Directory， 它 是 个 性 化 、 合 规 、 数 据 安 全 的 基础 ， 让 用 户 在 业务 中 学 习 
数据 洞察 力 ， 提 高 用 户 价值 。 


6. 宽松 的 软件 维护 ( Tension-free software maintenance ) 


所 有 的 服务 器 都 将 是 远程 的 ， 用 户 的 工作 是 在 虚拟 基础 设施 的 环境 下 展开 。 当 有 一 个 新 
的 软件 ， 云 服务 提供 商 将 保证 软件 的 升级 ， 这 能 有 效 确保 系统 运行 平稳 ， 用 户 不 必 在 维护 软 
件 上 花 时 间 和 精力 可 以 把 这 些 时 间 用 在 提升 关键 业务 上 。 

7. Great speed 

实现 和 配置 云 服务 的 时 间 仅 仅 只 需要 几 个 小 时 ， 而 在 迁移 到 云 计算 之 前 同样 的 服务 需要 
设置 本 地 服务 器 和 设备 ， 周 转 的 时 间 也 很 快 。 更 换 虚 拟 桌 面 和 解决 虚拟 化 的 问题 也 不 再 像 过 
去 一 样 需要 几 周 的 时 间 ， 往 往 很 快 就 能 解决 。 

8. 高 灵活 性 ( High flexibility ) 

云 计算 提供 了 巨大 的 灵活 性 ， 员 工 可 以 在 任何 地 方 工作 。 不 用 再 限制 员工 的 工作 站 访问 
信息 和 工作 任务 ， 虚 拟 桌面 基础 设施 〈VDI) 使 得 IT 环境 更 加 灵活 且 能 够 迅速 应 对 变化 。 此 
外 ， 随 着 云 计算 提供 的 智能 市 场 的 视角 ， 用 户 可 以 享受 到 快速 变化 的 营销 活动 。 这 种 灵活 性 
使 得 公司 能 够 在 用 户 最 需要 的 时 间 提 供 最 正确 的 服务 。 


9. 大 数据 ( Big data ) 


大 数据 是 通过 多 个 来 源 的 信息 整理 的 数据 ， 这 些 数据 通过 云 计算 的 分 析 工 具 进 行 分 析 ， 
可 以 帮助 业务 经 理学 习 和 了 解 客户 的 信息 。 大 数据 分 析 技 术 可 以 用 来 迅速 向 任何 行业 提供 详 
细 的 数据 。 


10. 安全 性 能 高 ( High security ) 


云 通常 比 本 地 的 基础 设施 更 加 安全 ， 云 能 够 确保 用 户 的 没有 授权 的 数据 免 受 黑客 和 其 他 
威胁 ， 用 户 甚至 可 以 在 远程 删除 遗失 的 笔记 本 电脑 中 的 数据 ， 保 证 商业 机 密 的 安全 。 

云 计算 及 其 基础 设施 的 成 功 实现 能 带 来 极 大 的 好 处 ， 这 就 是 为 什么 用 户 需 要 花 时 间 把 业 
务 迁移 到 云 中 ， 在 每 个 阶段 监测 植 入 ， 并 确保 执行 和 定期 维护 。 

把 基础 架构 从 物理 迁移 到 虚拟 才能 带 来 最 好 的 资源 利用 率 ， 然 后 再 迁移 到 云 ， 一 步 一 步 
地 进行 ， 轻 松 入 云 。 首 先 要 分 析 物 理 环境 。 当 把 物理 架构 加 进 环 境 之 后 ， 资 本 支出 就 会 增 
加 。 仔 细 分 析 环 境 能 帮 企 业 理 清 没有 得 到 完全 利用 的 资产 。 分 析 完 成 后 ， 物 理 机 到 虚拟 机 的 
迁移 就 可 以 有 效 提升 资源 利用 率 ， 免 除了 对 新 物理 架构 的 需求 ， 减 少 了 管理 费用 。 我 们 要 看 
一 下 哪些 应 用 支持 虚拟 化 ， 以 此 为 依据 对 应 用 进行 分 类 。 分 类 标准 可 以 有 很 多 ， 比 如 基于 平 
台 ， 或 是 否 需要 中 间 件 对 应 用 分 类 ， 同 样 的 基于 数据 库 来 分 类 也 可 行 。 对 环境 的 测试 和 评 
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估 ， 能 帮助 企业 准确 发 现 哪些 应 用 存在 不 支持 虚拟 化 的 可 能 。 企 业 级 应 用 一 般 而 言 都 需要 高 
CPU 能 量 和 大 数据 库 ， 因 此 不 推荐 将 其 转 入 虚拟 化 环境 。 

完成 了 物理 环境 分 析 ， 下 面 要 做 的 就 是 整合 并 虚拟 化 服务 器 。 服 务 器 需求 一 直 存 在 变 
动 ， 这 样 使 得 特定 的 服务 器 有 时 会 空闲 。 在 这 样 的 情况 下 ， 应 该 实现 整体 分 析 ， 包 括 使 用 模 
式 ， 确 定 一 下 计算 容量 ， 然 后 才 可 以 执行 物理 机 到 虚拟 机 的 迁移 。 在 高 峰 时 段 或 者 升级 时 分 
析 计 算 需 求 ， 这 些 需 求 会 影响 性 能 和 管理 。 此 外 ， 还 需要 将 服务 器 分 离 和 组 成 。 如 果 有 应 用 
在 两 个 数据 库 运行 ， 就 得 用 中 间 件 服务 器 或 者 运行 多 数据 库 的 SQL 服务 器 。 整 合 好 架构 之 
后 ， 要 对 环境 进行 测试 ， 避 免 任 何 网 络 和 存储 故障 ， 这 一 步 完 成 后 就 可 以 开始 虚拟 化 。 

这 一 步骤 之 后 ， 要 做 到 就 是 网 络 和 存储 虚拟 化 。 应 该 分 析 网 络 和 存储 架构 ， 发 现 可 能 的 
性 能 问题 。 针 对 分 离 和 孤立 网 络 ， 可 以 使 用 虚拟 局 域 网 配置 ， 要 把 产品 的 流量 和 其 他 流量 分 
开 ， 确 保 适合 的 带宽 利用 率 。 在 存储 方面 ， 最 重要 的 是 可 扩展 性 。 容 量规 划 和 管理 的 首要 问 
题 就 是 存储 使 用 模式 的 分 析 。IBM、HP 都 有 测量 和 报告 数据 ， 以 便 实现 更 佳 性 能 和 容量 规 
划 。 另 外 企业 应 该 测试 存储 ， 确 保 能 管理 hypervisor 负载 ， 支 撑 虚 拟 化 。 除 了 这 些 ， 企 业 还 
得 观察 自动 化 存储 管理 ， 这 样 做 能 让 存储 资源 安排 在 多 租户 或 者 空中 架构 中 ， 实 现在 不 同 应 
用 中 共享 存储 。 

现在 就 可 以 向 云 实现 迁移 。 架 构 向 云 的 迁移 也 需要 有 步骤 地 进行 。 最 初 可 以 少 迁 移 一 些 
关键 应 用 和 相关 架构 。 业 务 关 键 的 架构 应 该 以 之 前 的 成 功 步 骤 为 基础 ， 确 保 物理 产品 的 环境 
已 经 扼 下 ， 但 不 要 完全 退役 。 一 旦 发 生 任何 意外 ， 物 理 产品 环境 可 以 再 次 利用 。 物 理 环 境 要 
留 着 ， 运 行 那些 不 能 虚拟 化 的 应 用 和 服务 器 。 应 该 确保 服务 供应 商 符合 行业 标准 ， 同 时 严格 
的 服务 水 平 协议 〈《SLA) 和 规范 的 报告 必 不 可 少 ， 而 且 建议 做 好 严格 的 各 级 访问 控制 。 





2 .7 本 章 小 结 


云 计算 (Cloud Computing〉 是 分 布 式 处 理 (Distributed Computing，〉、 并 行 处 理 (Parallel 
Computing) 和 网 格 计算 (Grid Computing) 的 发 展 ， 或 者 说 是 这 些 计算 机 科学 概念 的 商业 实 
现 。 本 章 从 概念 到 技术 详细 介绍 了 云 计 算 的 服务 形式 、 实 现 机 制 、 编 程 模式 、 虚 拟 化 及 数据 
存储 等 云 计算 相关 的 技术 ， 同 时 详解 了 并 行 计 算 与 云 计算 的 关系 。 最 后 ， 阐 述 了 云 计算 的 发 
展 趋势 及 数据 和 业务 向 云 迁移 的 因素 与 分 析 。 
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第 3 章 
< 大 数据 与 云 计算 关 系 > 


很 多 行业 受益 于 “数据 中 心 作为 一 个 枢纽 ”， 越 来 越 多 的 以 云 计算 为 中 心 的 生态 系统 合 
作 伙 伴 集 中 在 一 个 关键 的 数据 中 心 ， 如 金融 交易 、 网 页 和 在 线 服务 或 是 媒体 内 容 的 企业 。 众 
所 周知 ， 这 些 企业 有 大 量 的 数据 需要 进行 处 理 和 管理 。 随 着 移动 智能 设备 的 普及 ， 云 计算 服 
务 和 云 应 用 在 云 平 台 的 支撑 下 ， 让 这 些 庞大 的 数据 得 以 保存 和 处 理 ， 数 据 的 价值 不 在 于 多 ， 
而 是 如 何 挖掘 到 有 价值 的 数据 ， 这 需要 借助 云 服 务 和 云 应 用 的 能 力 。 这 也 是 业界 将 云 计算 和 
大 数据 相提并论 的 原因 所 在 ， 到 底 云 计算 与 大 数据 是 怎么 样 的 关系 呢 ? 

云 计算 已 然 走 下 神 坛 开始 步 入 应 用 阶段 ， 而 大 数据 的 催生 反 过 来 体现 了 云 计 算 的 价值 所 
在 。 很 多 IT 技术 人 员 想 必 已 经 注意 到 业界 对 于 新 趋势 的 关注 已 由 原来 的 云 计算 转移 到 大 数据 
上 ， 越 来 越 多 的 企业 开始 推广 大 数据 相关 的 服务 和 产品 ， 越 来 越 多 的 企业 将 企业 数据 作为 企 
业 资产 进行 管理 和 变现 ， 已 经 开始 从 数据 抽象 、 数 据 共 享 和 数据 估 值 开始 启动 大 数据 战略 。 
对 于 大 数据 趋势 并 不 像 云 计 算 那 样 主要 集中 在 概念 层面 的 讨论 ， 主 要 是 在 技术 层面 的 研究 。 
企业 视 大 数据 为 企业 的 生命 、 企 业 的 新 竞争 力 ， 要 想 在 同类 行业 中 脱颖而出 赢得 市 场 ， 大 数 
据 的 支持 是 必 不 可 少 的 ， 所 以 企业 纷纷 制定 大 数据 战略 ， 无 论 是 互联 网 企业 还 是 传统 企业 
都 在 大 数据 时 代 不 甘 示 弱 ， 而 大 数据 时 代 的 特性 注定 了 它 与 云 计算 的 不 解 之 缘 。 大 数据 推动 
云 计 算 的 落地 ， 云 计算 促进 大 数据 的 应 用 。 






云 计算 与 大 数据 关系 


云 计算 的 关键 词 在 于 “整合 ”， 无 论 是 通过 现在 已 经 很 成 熟 的 传统 的 虚拟 机 切 分 型 技 
术 ， 还 是 通过 google 后 来 所 使 用 的 海量 节点 聚合 型 技术 ， 它 都 是 通过 将 海量 的 服务 器 资源 通 
过 网 络 进行 整合 ， 调 度 分 配给 用 户 ， 从 而 解决 用 户 因 为 存储 计算 资源 不 足 所 带 来 的 问题 。 

大 数据 正 是 因为 数据 的 爆发 式 增长 带 来 一 个 新 的 课题 内 容 ， 如 何 存储 如 今 互联 网 时 代 所 
产生 的 海量 数据 ， 如 何 有 效 地 利用 分 析 这 些 数据 等 。 

他 俩 之 间 的 关系 你 可 以 这 样 来 理解 ， 云 计算 技术 就 是 一 个 容器 ， 大 数据 正 是 存放 在 这 个 
容器 中 的 水 ， 大 数据 是 要 依靠 云 计算 技术 来 进行 存储 和 计算 的 。 

关于 云 计 算 与 大 数据 直接 的 关系 众说 纷 绒 ， 云 端 互通 对 于 云 计 算 和 大 数据 关系 做 以 下 三 
点 认识 : 
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首先 ， 云 计算 与 大 数据 之 间 是 相辅相成 、 相 得 益 彰 的 关系 。 大 数据 挖 气 处 理 需要 云 计算 
作为 平台 ， 而 大 数据 涵盖 的 价值 和 规律 则 能 够 使 云 计算 更 好 地 与 行业 应 用 结合 并 发 挥 更 大 的 
作用 。 云 计算 将 计算 资源 作为 服务 支撑 大 数据 的 挖掘 ， 而 大 数据 的 发 展 趋势 对 实时 交互 的 海 
量 数据 查询 、 分 析 提供 了 各 自 需要 的 价值 信息 。 

其 次 ， 云 计算 与 大 数据 的 结合 将 可 能 成 为 人 类 认识 事物 的 新 的 工具 。 实 践 证 明 人 类 对 客 
观 世 界 的 认识 是 随 着 技术 的 进步 以 及 认识 世界 的 工具 更 新 而 逐步 深入 。 过 去 人 类 首先 认识 的 
是 事物 表面 ， 通 过 因果 关系 由 表 及 里 ， 由 对 个 体 认识 进而 找到 共性 规律 。 现 在 将 云 计算 和 大 
数据 结合 ， 人 们 就 可 以 利用 高 效 、 低 成 本 的 计算 资源 分 析 海 量 数据 的 相关 性 ， 快 速 找 到 共性 
规律 ， 加 速 人 们 对 于 客观 世界 有 关 规 律 的 认识 。 

第 三 ， 大 数据 的 信息 隐私 保护 是 云 计算 大 数据 快速 发 展 和 运用 的 重要 前 提 。 没 有 信息 安 
全 也 就 没有 云 服务 的 安全 。 产 业 及 服务 要 健康 、 快 速 地 发 展 就 需要 得 到 用 户 的 信赖 ， 就 需要 
科技 界 和 产业 界 更 加 重视 云 计 算 的 安全 问题 ， 更 加 注意 大 数据 挖掘 中 的 隐私 保护 问题 。 从 技 
术 层 面 进行 深度 的 研发 ， 严 防 和 打击 病毒 与 黑客 的 攻击 ， 同 时 加 快 立 法 的 进度 ， 维 护 良 好 的 
信息 服务 环境 。 





可 .2 大 数据 与 云 计算 的 融合 是 认识 世界 的 
新 工具 


管 好 资源 的 基础 是 将 这 些 资源 真正 形成 创建 、 服 务 能 力 和 高 可 靠 能 力 。 云 计算 是 尽力 可 
为 的 计算 ， 不 保证 质量 ， 它 是 从 计算 通信 平台 向 计算 平台 和 智能 平台 转换 中 出 现 的 一 类 平 
台 。 大 数据 给 技术 研究 者 、 产 业界 带 来 了 很 多 机 会 ， 在 当前 互联 网 二 次 价值 信息 探索 之 际 
管 好 数据 、 管 好 资源 是 云 计算 要 做 的 工作 。 

几 年 前 大 家 还 都 在 谈论 什么 是 云 计算 ， 而 现在 其 已 成 为 产业 共识 ， 所 有 的 IT 企业 都 在 使 
用 云 ，Google、 微 软 、 亚 马 逊 、IBM 都 在 大 规模 部 署 云 。 可 以 说 云 计 算 已 经 真正 成 为 一 种 技 
术 发 展 的 趋势 ， 而 且 作为 一 种 重要 的 部 署 ， 正 在 走向 良性 发 展 的 通道 。 

高 调 的 厂商 ， 比 如 AWS、Google、 微 软 、IBM 和 Rackspace 等 ， 都 提供 云 基础 的 
Hadoop 和 NoSQL 数据 库 平台 来 支持 大 数据 应 用 程序 。 很 多 初创 公司 都 引入 了 云 平台 上 的 管 
理 服务 ， 按 需 部 署 自己 的 系统 。 大 数据 和 云 计 算 的 融合 往往 是 互联 网 公司 的 首选 项 ， 尤 其 是 
初创 的 软件 和 数据 服务 供应 商 。 


1. 初 识 大 数据 云 的 融合 ， 企 业 黑 白 子 布局 犹豫 

很 多 主流 公司 并 不 像 互联 网 公司 那样 看 重 云端 数据 管理 。 一 些 公司 担心 云端 的 数据 安全 
和 隐私 保护 ; 一 些 公司 还 在 大 型 机 和 其 他 本 地 系统 里 运行 大 部 分 操作 ， 存 储 在 本 地 的 数据 量 
之 大 ， 让 数据 迁移 充满 挑战 。 另 外 ， 现 存 数据 中 心 可 用 的 处 理 能 力 让 AWS 和 Google 等 公有 
云 的 成 本 优势 不 值 一 提 ， 即 使 公司 对 于 云 系统 所 谓 的 降低 成 本 、 增 加 弹性 有 兴趣 ， 最 终 也 未 
必 会 选择 它 。 以 花旗 集团 为 例 ， 随 着 网 络 成 为 普及 的 应 用 界面 ， 金 融 服 务 公司 面 对 的 是 洪水 
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般 的 非 结构 化 数据 ， 它 还 需要 处 理 线 上 金融 应 用 程序 中 不 同 的 数据 结构 。 这 些 挑战 让 花旗 集 
团 最 后 选择 了 MongoDB NoSQL 数据 库 。MongoDB 获得 了 AWS 和 其 他 云 平台 的 支持 。 花 旗 
数据 公司 负责 平台 工程 的 全 球 领导 者 Michael Simone 表示 ， 花 旗 选 择 了 在 云端 应 用 该 软件 。 
不 过 它 应 用 的 是 私有 云 ， 应 用 限定 在 纽约 公司 的 防火 墙 内 ， 由 它 的 IT 部 门 全 权 管 理 。 在 纽约 
的 MongoDB 大 会 上 ，Simone 告诉 与 会 者 : “目前 ， 我 们 还 没有 扩展 私有 云 或 集成 公有 云 的 
打算 。 花 旗 集 团 的 数据 中 心 很 大 ， 技 术 积 累 也 很 深厚 ， 我 们 可 以 构建 自己 内 部 部 署 的 云 计 
算 。” 


2. 小 荷 才 露 尖 尖 角 一 一 大 数据 云 轻盈 起 步 


总 体 来 看 ， 在 云端 运行 大 数据 系统 仍然 是 小 众 行为 。 在 数据 仓库 研究 院 开发 的 大 数据 成 
熟 度 模 型 中 ， 十 个 月 内 有 222 名 IT 和 业务 专家 完成 了 线 上 测评 ， 只 有 19% 的 人 表示 它们 的 组 
织 在 用 公有 云 、 私 有 云 和 混合 云 支持 大 数据 应 用 程序 ， 另 有 40% 的 人 表示 正在 考虑 云 部 署 ， 
同时 有 超过 三 分 之 一 的 人 表示 它们 没有 使 用 云 计 算 的 计划 。 在 企业 管理 协会 和 9sight 咨询 公 
司 开展 的 线 上 调查 中 ， 云 计算 使 用 比例 略 高 : 259 名 受 访 者 中 ，39% 的 人 表示 他 们 的 大 数据 
安装 包括 云 系统 。WeatherChannel 公司 是 采用 了 公有 云 的 案例 ，Basho 技术 公司 在 AWS 可 用 
性 区 域 的 多 个 分 区 运行 了 Basho 技术 公司 的 NoSQL 数据 库 Riak 的 复制 实例 ， 处 理 和 存储 来 
自卫 星 、 和 雷达 系统 、 天 气 站 等 来 源 的 混合 数据 。 该 数据 库 每 5 分 钟 就 为 预测 引擎 更 新 3.6 万 
多 地 理 天 气 网 格 的 视图 ， 它 还 用 于 归档 历史 数据 。 美 国 TWC 公司 执行 副 总 裁 兼 CIO Bryson 
Koehler 认为 ，Riak 的 容错 技术 和 同时 支持 内 存 和 硬盘 存储 的 功能 特别 好 。 经 过 比较 ， 因 为 
处 理 效果 低 ， 主 流 关 系 型 数据 库 并 不 能 适应 高 容量 的 云 环境 ， 至 少 不 能 以 较 低 的 成 本 适应 高 
容量 的 云 环 境 。 但 是 ， 在 云端 部 署 NoSQL 软件 也 是 旨 在 扩大 TWC 灵活 性 的 更 广泛 的 IT 战 
略 的 题 中 之 义 。 公 司 在 Google 云 和 AWS 上 运行 应 用 程序 ， 以 免 被 任何 供应 商 或 技术 锁定 。 

3. 大 数据 云 使 得 企业 有 更 多 选择 、 更 多 可 能 

公有 云 供应 商 已 经 为 了 满足 大 数据 需求 ， 扩 展 了 数据 管理 能 力 ， 不 止 包含 关系 型 数据 
库 。 例 如 ， 亚 马 逊 近 几 年 拓宽 了 AWS 云 选项 ， 包 含 了 很 多 新 兴 技术 ， 比 如 NoSQL 数据 库 
DynamoDB、Hadoop 部 署 ElasticMapReduce 和 ElastiCache 内 存 缓存 服务 、Redshift 数据 仓库 
和 Kinesis 流 数 据 系 统 。 美 国 咨 询 公 司 Cloud Technology Partners 高 级 副 总 裁 DavidLinthicum 
表示 : “AWS 和 其 他 云 供应 商 也 创建 了 相当 成 熟 的 服务 。 一 些 可 用 的 数据 管理 云 平台 已 经 发 
展 到 第 五 代 、 第 六 代 了 。” 

4. 需求 一 一 大 数据 云 融 合 的 源泉 

例如 加 拿 大 海洋 网 络 (ONC) 是 一 家 非 营 利 性 机 构 ， 该 机 构 管理 着 英 属 哥伦比亚 的 一 对 
海洋 气象 台 ， 计 划 建 立 一 个 公司 内 部 私有 云 ， 为 使 用 海洋 传感器 提供 数据 的 应 用 模拟 地 震 和 
海啸 创造 条 件 ， 目 标 在 于 更 加 准确 地 预测 可 能 发 生 的 自然 灾害 带 来 的 后 果 ， 为 政府 当局 提供 
预防 措施 ， 缓 解 自然 灾害 给 人 们 带 来 的 影响 ，Benoit Pirenne 这 样 说 道 ， 他 是 ONC 的 数字 基 
础 设施 主管 。 该 机 构 位 于 维多利亚 大 学 ，2015 年 春天 得 到 了 一 项 三 年 项 目的 批准 和 资金 支 
持 。 计 划 进 行 的 分 析 工 作 包 括 收集 传感器 的 多 次 测定 结果 ， 运 行 预测 模型 以 得 出 可 能 发 生 的 
所 有 情况 集 ， 但 是 完成 这 项 工作 需要 大 量 数据 和 强大 的 计算 能 力 。Pirenne 说 道 : “要 计算 现 
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实 状况 中 的 “模拟 ”几乎 是 不 可 能 完成 的 任务 ， 就 算 在 非常 高 级 的 平行 云 系 统 中 也 不 行 。” 
因此 ，ONSC 正在 与 IBM 合作 构建 一 个 内 部 云 处 理 流程 和 分 析 工 作 。 

新 兴 的 管理 服务 供应 商 一 一 例如 Altiscale 、BitYota 、Qubole 、Treasure Data 和 
Rackspace’*sObjectRocket 附属 公司 等 一 一 他 们 通过 以 低 于 云 平 台 供 应 商 的 价格 接管 部 署 和 管 
理 任务 ， 能 够 为 企业 用 户 将 大 数据 云 装置 做 得 更 方便 、 更 划算 。 

美国 的 Sellpoints 公司 是 一 个 线 上 营销 和 分 析 服 务 供应 商 ， 使 用 Hadoop 和 Spark 的 流程 
工具 迅速 构建 查询 表格 ， 查 询 数 据 量 达 到 TB 用 户 网 页 活跃 度数 据 。 

管 好 资源 的 基础 是 将 这 些 资源 真正 形成 创建 、 服 务 能 力 和 高 可 靠 能 力 。 云 计算 是 尽力 可 
为 的 计算 ， 不 保证 质量 ， 它 是 从 计算 通信 平台 向 计算 平台 和 智能 平台 转换 中 出 现 的 一 类 平 
台 ; 大 数据 给 技术 研究 者 、 产 业界 带 来 了 很 多 机 会 ， 在 当前 互联 网 二 次 价值 信息 探索 之 际 ， 
管 好 数据 、 管 好 资源 是 云 计 算 要 做 的 工作 。 

同时 ， 如 何 用 好 资源 也 是 非常 重要 的 问题 。 用 好 资源 是 硬币 的 两 个 面 ， 分 别 代表 着 云 计 
算 管 理 和 大 数据 分 析 。 首 先 ， 一 个 重要 方面 是 资源 的 共享 和 管理 。 我 们 都 知道 资源 和 数据 是 
重要 的 基础 设施 ， 在 整个 社会 信息 化 发 展 中 占有 重要 位 置 ， 另 一 方面 ， 资 源 本 身 也 是 一 个 重 
要 的 耗 能 产业 ， 相 关 数 据 分 析 表 明 ，ICT 是 全 球 第 五 大 耗 能 产业 。 

例如 在 facebook 应 用 中 ， 某 天 终端 应 用 量 发 生 爆 炸 性 增长 ， 从 50 台 一 下 子 变 成 3000 

; 再 如 去 年 光棍 节 淘 宝 交易 额 突破 新 纪录 ， 在 应 用 中 产生 了 动 则 几 百 万 、 上 千 万 的 访问 
。 这 就 要 求 我 们 管 好 资源 ， 配 置 好 资源 ， 同 时 保证 系统 的 可 靠 性 也 非常 重要 。 在 这 样 的 供 
给 短 时 间 极 大 增长 、 爆 炸 式 资源 需求 环境 下 ， 如 何 建立 高 可 靠 的 资源 管理 就 是 我 们 云 计算 面 
临 的 首要 挑战 。 

















有 地 吕 3 


了 ,了 ”大 数据 隐私 保护 是 大 数据 云 快速 发 展 和 运用 
的 重要 前 提 


大 数据 、 云 计算 是 目前 互联 网 发 展 的 一 个 重要 方向 ， 更 是 信息 和 网 络 安全 发 展 的 一 个 重 
要 方向 。 用 户 为 了 能 够 方便 地 管理 、 存 储 自己 单位 或 个 人 的 大 量 敏感 信息 ， 往 往 将 这 些 信息 
寄存 在 一 些 专营 计算 公司 的 “存储 云 片 ”上 ， 而 这 些 所 谓 的 “ 云 片 ”在 什么 地 方 、 掌 握 在 何 
人 手 里 ， 用 户 实际 上 根本 不 知道 。 明 眼 人 一 看 就 知道 ， 这 无 异 于 玩 火 、 无 异 于 将 自己 的 敏感 
信息 送 给 人 家 〔 敌 方 或 对 手 ) 、 无 异 于 往 空 中 抛 钱 、 无 异 于 “此 地 无 银 300 两 ”， 因 为 所 谓 
的 “ 云 片 ”， 其 实 就 是 一 个 信息 的 “小 件 、 大 件 寄存 器 ”， 存 储 在 这 些 “ 云 片 ” 上 的 寄存 
器 ， 毫 无 安全 性 和 保密 性 而 言 。 

没有 网 络 的 安全 就 没有 数据 的 安全 ， 没 有 数据 的 安全 就 没有 信息 安全 ， 没 有 信息 安全 也 
就 没有 云 服务 的 安全 ， 归 根 到 底 ， 没 有 网 络 的 安全 就 没有 国家 的 安全 。 产 业 及 服务 要 健康 、 
快速 地 发 展 ， 就 需要 得 到 用 户 的 信赖 ， 就 需要 科技 界 和 产业 界 更 加 重视 云 计 算 的 安全 问题 ， 
更 加 注意 大 数据 挖掘 中 的 隐私 保护 问题 。 同 时 加 快 立 法 的 进度 ， 依 法 保护 信息 安全 ， 维 护 良 
好 的 信息 服务 的 环境 。 
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3.3.1 云 计算 的 安全 隐私 

云 计算 的 出 现 给 信息 技术 领域 带 来 了 重大 变革 ， 为 用 户 提供 了 很 好 的 服务 ， 但 是 这 种 变 
革 也 给 信息 安全 和 网 络 安全 带 来 了 很 大 的 冲击 ， 云 计算 的 安全 问题 越 来 越 成 为 云 计算 各 界 关 
注 的 重点 。 由 于 所 涉及 的 资源 由 多 个 管理 者 所 有 ， 各 管理 者 之 间 存 在 利益 问题 、 信 任 问题 ， 
面 对 各 种 各 样 的 冲突 ， 我 们 无 法 提供 统一 规则 来 部 署 安全 防护 措施 。 另 外 ， 由 于 云 计算 没有 
统一 的 基础 设施 、 没 有 统一 的 用 户 管理 要 求 、 没 有 统一 的 安全 边界 ， 所 以 对 用 户 数据 的 安全 
与 隐私 保护 是 极 大 的 威胁 。 

云 计算 的 安全 问题 从 数据 存储 方面 来 讲 ， 主 要 包括 用 户 放 在 云 平台 的 数据 是 否 安 全 ， 例 
如 是 否 被 修改 、 被 泄露 、 被 损毁 ， 从 计算 方面 来 讲 ， 主 要 指 用 户 在 云 平台 的 操作 是 否 会 被 监 
视 、 是 否 会 被 重演 、 是 否 会 被 算 改 等 ， 从 云 平台 的 生态 系统 来 讲 ， 主 要 说 的 是 云 平台 本 身 是 
否 可 靠 、 云 平台 提供 的 服务 是 否 正确 、 云 平台 及 云 服务 提供 商 是 否 乱 收费 等 。 云 计算 的 这 些 
安全 问题 ， 主 要 来 自 于 两 个 方面 :一 方面 云 服务 提供 商 是 不 诚实 的 、 不 可 靠 的， 它们 随意 窗 
取 用 户 的 信息 或 者 随意 使 用 用 户 部 署 在 云 平台 的 应 用 程序 ， 我 们 可 以 通过 采用 独立 于 云 服务 
提供 商 的 第 三 方 来 进行 有 效 防范 ， 关 键 的 另 一 方面 ， 云 平台 可 能 会 受到 外 部 的 攻击 或 者 侵 
入 ， 通 常 我 们 会 通过 云 服务 提供 商 备 有 各 种 访问 控制 和 身份 认证 以 及 数据 加 密 的 机 制 来 予以 
防护 ， 或 者 云 服务 提供 商 通过 基于 角色 的 访问 控制 和 基于 联邦 的 身份 管理 来 进行 防护 。 


3.3.2 ”大 数据 的 安全 隐私 

在 大 数据 环境 下 ， 各 行 各 业 的 安全 需求 正在 发 生 改变 ， 从 数据 采集 、 数 据 整合 、 数 据 存 
储 、 数 据 分 析 、 数 据 挖掘 再 到 数据 发 布 ， 这 一 流程 已 经 成 为 新 的 完整 链条 。 随 着 数据 量 的 增 
大 和 集中 ， 整 个 链条 中 数据 的 安全 威胁 也 越 来 越 多 ， 数 据 的 安全 隐私 保护 也 越 来 越 困 难 ， 大 
数据 的 安全 隐私 问题 已 经 成 为 各 企业 关注 的 重点 。 另 外 ， 大 数据 的 发 展 对 个 人 造成 了 用 户 隐 
私 与 便利 性 的 冲突 : 消费 者 得 益 于 大 数据 技术 ， 会 以 更 低 的 价格 买 到 更 符合 自己 需求 的 商 
品 ; 但 同时 ， 随 着 个 人 购买 偏好 、 健 康 和 财务 状况 的 海量 数据 被 收集 ， 人 们 的 隐私 也 被 破 
坏 。 整 体 来 说 ， 目 前 的 大 数据 主要 存在 基础 设施 安全 、 存 储 安全 、 网 络 安全 、 隐 私 安全 四 方 
面 的 安全 问题 。 

隐私 性 指 的 是 一 些 数据 的 信息 保护 。 在 云 计算 的 大 环境 下 ， 隐 私 性 的 定义 比 传统 意义 上 
更 加 复杂 ， 它 不 仅仅 指数 据 的 内 容 本 身 ， 还 包括 数据 的 结构 信息 、 用 户 的 访问 模式 、 访 问 历 
史 等 。 对 于 云端 数据 的 检索 来 说 ， 需 要 保护 用 户 的 搜索 内 容 的 隐私 性 ， 数 据 拥 有 者 建立 在 云 
端 索引 的 隐私 性 ， 对 于 云端 数据 的 存储 来 说 ， 要 保证 用 户 数据 在 云端 的 隐私 性 ， 在 存储 到 云 
端 后 要 保证 数据 是 完整 的 ， 当 数据 信息 不 完整 时 能 够 及 时 恢复 ， 对 于 云端 数据 的 计算 来 说 ， 
既 要 保证 计算 结果 的 安全 隐私 ， 又 要 保证 计算 内 容 的 安全 隐私 叶 。 整 体 来 说 ， 由 于 云 计 算 环 
境 多 租户 以 及 开放 性 等 原因 ， 使 得 云端 数据 安全 隐私 性 的 保护 在 变 得 异常 困难 ， 但 又 非常 重 
要 。 

当前 ， 云 端 数据 安全 隐私 服务 主要 提供 两 种 模式 : 一 是 用 户 将 自己 本 地 的 数据 存储 至 云 
服务 商 处 ， 云 服务 商 为 其 提供 数据 的 存储 、 管 理 等 服务 ， 同 时 提供 给 经 授权 的 其 他 合法 用 户 
检索 下 载 ; 二 是 用 户 可 以 使 用 云 服 务 商 提供 的 强大 计算 资源 对 数据 进行 计算 ， 以 得 到 相应 结 
果 ， 从 而 节省 了 用 户 自己 的 计算 资源 。 图 3-1 为 阿里 巴巴 大 数据 云 技术 层次 图 ， 图 3-2 为 中 
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国 移动 大 数据 云 平台 。 
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图 3-2 ”中 国 移动 大 数据 云 平台 


云 计 算 和 大 数据 的 安全 隐私 保护 是 云端 大 数据 平台 这 一 关键 技术 快速 发 展 和 运用 的 重要 
前 提 。 云 计算 、 大 数据 的 产业 及 相应 提供 的 服务 要 健康 、 快 速 的 发 展 ， 就 需要 从 用 户 层面 重 
视 云 平台 下 的 大 数据 安全 隐私 保护 的 问题 。 从 技术 层面 进行 深度 研发 相关 的 技术 ， 严 防 和 打 
击 计算 机 病毒 和 不 法 黑客 的 攻击 ， 确 保 数据 信息 拥有 者 的 自主 权 。 从 科研 层面 ， 我 们 要 研究 
云端 大 数据 平台 的 安全 隐私 保护 方面 的 算法 及 协议 ， 并 运用 到 具体 的 实践 中 去 。 云 计算 平台 
下 的 大 数据 安全 隐私 保护 问题 ， 是 社会 各 界 必须 要 高 度 重视 的 问题 ， 良 好 的 云端 大 数据 平台 
的 安全 隐私 保护 是 保证 云 计算 、 大 数据 快速 发 展 和 运用 的 重要 前 提 。 

目前 ， 云 服务 提供 商 对 用 户 所 能 够 提供 的 在 线 计算 和 隐私 性 保护 还 非常 有 限 。 从 传统 的 
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加 密 算法 来 讲 ， 为 了 保护 自己 数据 的 隐私 性 ， 数 据 拥有 者 会 对 上 传 的 数据 进行 加 密 ， 只 要 加 
密 算 法 的 选择 恰当 ， 密 钥 的 保护 完好 ， 我 们 就 认为 数据 的 隐私 性 是 安全 的 。 但 是 在 云 计算 的 
服务 当中 ， 还 必须 要 求 对 一 些 计算 的 相关 信息 进行 保护 99。 还 可 以 基于 云端 多 服务 器 的 安全 
计算 服务 解决 数据 的 隐私 性 ， 由 多 个 云 服 务 器 (Cloud Server) 负责 存储 经 过 加 密 处 理 的 数据 
集 ， 再 由 一 个 代理 服务 器 〈Proxy) 负责 按 照 用 户 的 要 求 对 相关 数据 进行 计算 ， 生 成 一 个 加 密 
结果 ， 返 还 用 户 之 后 ， 最 终 由 用 户 解密 ， 生 成 想 要 的 结果 。 这 种 方案 节省 了 数据 拥有 者 在 本 
地 的 存储 空间 及 数据 管理 成 本 ， 同 时 ， 利 用 云 计 算 的 功能 获得 了 更 快捷 、 更 准确 的 计算 能 
力 ， 有 效 地 保护 了 用 户 数据 的 隐私 性 及 相关 计算 请 求 的 隐私 性 。 


了 ,4 大 数据 成 就 云 计 算 价 值 


当 大 数据 遭遇 云 计算 ， 从 技术 上 看 ， 大 数据 与 云 计 算 的 关系 就 像 一 枚 硬币 的 正 反 面 一 样 
密 不 可 分 。 大 数据 必然 无 法 用 单 台 的 计算 机 进行 处 理 ， 必 须 采 用 分 布 式 计算 架构 。 它 的 特色 
在 于 对 海量 数据 的 挖掘 ， 但 它 必须 依托 云 计算 的 分 布 式 处 理 、 分 布 式 数 据 库 、 云 存储 和 虚拟 
化 技术 。 

通常 情况 下 ， 我 们 容易 将 大 数据 与 云 计算 混淆 在 一 起 。 著 名 的 麦肯锡 全 球 研究 所 给 出 大 
数据 定义 是 一 种 规模 大 到 在 获取 、 存 储 、 管 理 、 分 析 方 面 大 大 超出 了 传统 数据 库 软件 工具 能 
力 范围 的 数据 集合 ， 具 有 海量 的 数据 规模 、 快 速 的 数据 流转 、 多 样 的 数据 类 型 和 价值 密度 低 
四 大 特征 。 对 于 云 计算 ， 则 是 一 种 基于 互联 网 的 计算 方式 ， 通 过 这 种 方式 ， 共 享 的 软 硬 件 资 
源 和 信息 可 以 按 需 求 提供 给 计算 机 和 其 他 设备 。 借 用 大 数据 云 计算 关系 一 文中 的 直 白 介绍 就 
是 云 计算 是 硬件 资源 的 虚拟 化 ， 而 大 数据 是 海量 数据 的 高 效 处 理 。 从 结果 来 分 析 ， 云 计算 注 
重 资源 分 配 ， 大 数据 注重 的 是 资源 处 理 。 一 定 程度 上 讲 ， 大 数据 需要 云 计算 支撑 ， 云 计算 为 
大 数据 处 理 提供 平台 。 图 3-3 为 大 数据 与 云 计算 关系 。 





图 3-3 大 数据 与 云 计算 关系 
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从 二 者 的 定义 范围 来 看 ， 大 数据 要 比 云 计算 更 加 广泛 。 大 数据 这 一 概念 从 2011 年 诞生 以 
来 ， 历 经 5 个 年 头 。 大 数据 是 需要 新 处 理 模式 才能 具有 更 强 的 决策 力 、 洞 察 发 现 力 和 流程 优 
化 能 力 来 适应 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 大 数据 这 个 强大 的 数据 库 拥 有 三 层 架 构 
体系 ， 包 括 数据 存储 、 处 理 与 分 析 。 简 而 言 之 ， 数 据 需要 通过 存储 层 先 存储 下 来 ， 之 后 根据 
要 求 建立 数据 模型 体系 ， 进 行 分 析 产 生 相应 价值 。 这 其 中 缺少 不 了 云 计 算 所 提供 的 中 间 数 据 
处 理 层 强大 的 并 行 计算 和 分 布 式 计算 能 力 。 

据 了 解 ， 云 计算 的 历史 比 大 数据 更 加 绵长 ， 是 继 1980 年 大 型 计算 机 到 客户 端 服务 器 转变 
之 后 的 一 种 巨变 。 美 国 国家 标准 与 技术 研究 院 定义 云 计 算 为 一 种 按 使 用 量 付费 的 模式 ， 这 种 
模式 提供 可 用 的 、 便 捷 的 、 按 需 的 网 络 访问 。 同 时 ， 进 入 可 配置 的 计算 资源 共享 池 即 可 快速 
提供 资源 ， 减 少 交互 所 需 的 步骤 和 时 间 。 云 计算 可 以 实现 每 秒 10 万 亿 次 的 运算 ， 能 够 模拟 核 
爆炸 ， 分 析 市 场 发 展 趋势 ， 预 测 气候 变化 等 。 所 以 ， 云 计算 的 作用 和 大 数据 类 似 ， 云 计算 与 
大 数据 如 同 手心 手背 的 关系 : 二 者 不 可 或 缺 ， 相 辅 相 成 。 没 有 大 数据 ， 云 计算 没有 用 武之 
地 ， 而 没有 云 计算 成 就 不 了 大 数据 。 

以 此 看 来 ， 大 数据 与 云 计算 之 间 ， 并 非 独 立 概念 ， 而 是 关系 非 比 寻 常 。 无 论 在 资源 的 需 
求 上 还 是 在 资源 的 再 处 理 上 ， 都 需要 二 者 共同 运用 。 因 此 ， 与 其 计较 大 数据 与 云 计算 之 间 怎 
么 区 分 ， 不 如 规划 在 一 起 ， 让 云 计 算 为 大 数据 提供 强大 平台 ， 以 大 数据 分 析出 的 结论 完成 云 
计算 价值 。 





可 .与 ”数据 向 云 计算 迁移 


尽管 迁移 到 云 的 数据 中 心 设施 有 着 诸多 的 原因 和 好 处 ， 但 这 一 过 程 仍然 是 充满 了 各 种 风 
险 。 以 前 ， 当 需要 结束 一 段 与 数据 中 心 或 云 服务 提供 商 的 失败 的 合作 关系 或 者 服务 提供 者 本 
身 出 现 故 障 的 时 候 ， 我 们 需要 一 套 “B 计划 ”。 通 常 的 建议 是 ，IT 管理 人 员 应 确保 他 们 所 在 
的 企业 和 云 服务 提供 商 之 间 的 合同 内 要 规定 好 数据 的 所 有 权 是 属于 企业 的 。 然 而 ， 这 只 是 问 
题 的 一 部 分 ， 依 然 存在 如 何在 事后 处 理 数据 的 问题 。 

随 着 数据 正在 逐渐 成 为 企业 的 核心 资产 ， 数 据 的 存储 、 迁 移 成 为 企业 时 刻 关 注 的 问题 。 
据 Gartner 统计 数据 表明 ，95% 的 受 访 企业 都 认为 数据 迁移 是 个 “硬骨头 ”， 让 人 头痛 却 又 不 
得 不 面 对 。 

在 传统 数据 迁移 的 过 程 中 ， 有 接近 64% 的 客户 经 历 过 业务 下 线 时 间 超 过 计划 和 预期 的 情 
况 ; 超过 50% 的 客户 在 实施 数据 迁移 过 程 中 ， 将 面临 技术 升级 或 是 架构 革新 所 带 来 的 兼容 性 
风险 ; 而 在 架构 升级 之 后 ， 性 能 不 升 反 降 、 数 据 受 损 、 数 据 丢失 等 ， 如 梦 麻 一般 ， 也 时 刻 困 
扰 着 实施 数据 迁移 行为 的 客户 。 

数据 迁移 是 一 个 非常 复杂 和 细致 的 过 程 ， 它 要 求 设计 与 实施 人 员 具 备 多 元 化 的 知识 结 
构 ， 和 否则 ， 我 们 就 不 得 不 陷入 顾此失彼 的 境地 。 一 个 完整 和 成 功 的 数据 迁移 解决 方案 包含 6 
个 部 分 : 


@ 具备 专业 技能 的 人 员 。 
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经 过 验证 的 解决 方案 。 
稳健 可 靠 的 流程 和 方法 论 。 
交付 前 实验 室 模拟 验证 。 
高 效 的 迁移 工具 。 

@ 应急 的 回 滚 措施 。 

任意 一 个 条 件 的 缺乏 都 有 可 能 导致 数据 迁移 不 成 功 。 以 华为 融合 数据 迁移 为 例 ， 融 合 数 
据 迁 移 解决 方案 自 上 而 下 ， 支 持 基 于 应 用 软件 与 数据 库 、 卷 管理 软件 、 虚 拟 机 、 主 机 、 网 
络 ， 以 及 存储 6 种 层级 功能 的 数据 迁移 方案 ， 从 不 同 维度 、 不 同 层面 ， 保 障 我 们 客户 的 数据 
迁移 过 程 可 靠 与 高 效 。 图 3-4 为 数据 迁移 建 模 设 计 。 
一 > 01 环 境 采集 


02 风 险 评估 
规划 


01 调 研 评 人 一 0 
02 规 划 设 诗 一 了 05 解 决 方 案 设计 
03 实 施 服 条 二 | 阶段 设计 06 实 验 模拟 验证 
04 项 目 验 忆 | 07 项目 规划 

| 08 业 务 数据 备份 


[一 > 09 软 使 件 联 调 














站 [> 10 初 始 化 配置 





- |* 11 迁 移 实施 
02 方 案 可 实施 性 分 析 *| 六 > 12 业 务 切换 测试 
03 灾 难 可 恢复 性 分 析 <- [13 客 户 培训 





站 >01 系 统 采集 工具 站 > 14 现场 值守 与 交付 件 
和 >02 方 案 设 计 工 具 一 > 15 项 目 验收 

| >03 关 联 分 忻 工具 

| >04 容 量 评估 工具 

| 一 >05 迁 移 工具 

一 06 测试 工具 





图 3-4 ”数据 迁移 建 模 设计 


融合 数据 迁移 解决 方案 分 为 四 大 阶段 与 15 道 工序 ， 从 调研 评估 到 规划 设计 ， 再 到 实施 服 
务 ， 以 至 于 到 最 后 的 项 目 验收 ， 将 严格 地 遵循 这 样 的 服务 流程 与 方法 论 ， 为 客户 提供 规范 
的 、 标 准 的 、 无 差别 的 高 质量 数据 迁移 。 

在 方案 设计 阶段 提供 深入 、 细 致 的 三 次 业务 分 析 用 于 建 模 。 对 现 网 环境 及 云 环境 分 析 ， 
将 有 助 于 工程 师 全 面 、 细 致 地 掌握 客户 现场 情况 ， 以 应 对 后 续 的 兼容 性 等 多 方面 风险 ;方案 
可 实施 性 分 析 ， 为 用 户 后 续 迁 移 工 作 的 有 序 开展 提供 必要 的 数据 支撑 ， 风 险 分 析 将 作为 最 关 
键 的 一 道 保护 措施 ， 在 数据 迁移 出 现 不 可 接受 的 偏差 时 ， 及 时 、 安 全 、 有 序 地 恢复 用 户 业 
务 。 数 据 迁 移 完成 后 检验 数据 移动 的 情况 ， 通 过 特有 的 校 验 算法 来 验证 数据 的 一 致 性 ， 保 证 
数据 的 完整 性 、 正 确 性 、 有 效 性 ， 增 强 客户 对 关键 信息 安全 性 的 分 析 。 


了 .日 、 大 数据 清洗 


数据 清洗 是 指 发 现 并 纠正 数据 文件 中 可 识别 的 错误 的 最 后 一 道 程 序 ， 包 括 检 查 数 据 一 致 
性 、 处 理 无 效 值 和 缺失 值 等 。 与 问卷 审核 不 同 ， 录 入 后 的 数据 清理 一 般 是 由 计算 机 而 不 是 人 
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工 完成 。 数 据 清洗 需要 注意 的 是 不 要 将 有 用 的 数据 过 滤 掉 ， 对 于 每 个 过 滤 规 则 认真 进行 验 
证 ， 并 要 用 户 确认 。 数 据 清洗 从 名 字 上 也 看 得 出 就 是 把 “ 脏 ” 的 “ 洗 掉 ”， 指 发 现 并 纠正 数 
据 文件 中 可 识别 的 错误 的 最 后 一 道 程序 ， 包 括 检查 数据 一 致 性 、 处 理 无 效 值 和 缺失 值 等 9。 


1. 一 致 性 检查 


一 致 性 检查 (consistency check) 是 根据 每 个 变量 的 合理 取 值 范围 和 相互 关系 ， 检 查 数据 
是 否 合乎 要 求 ， 发 现 超出 正常 范围 、 罗 辑 上 不 合理 或 者 相互 矛盾 的 数据 。SPSS、SAS 和 
Excel 等 计算 机 软件 都 能 够 根据 定义 的 取 值 范围 ， 自 动 识别 每 个 超出 范围 的 变量 值 。 具 有 逻辑 
上 不 一 致 性 的 答案 可 能 以 多 种 形式 出 现 : 例如 ， 许 多 调查 对 象 说 自己 开车 上 班 ， 又 报告 没有 
汽车 ; 或 者 调查 对 象 报告 自己 是 某 品 牌 的 重度 购买 者 和 使 用 者 ， 但 同时 又 在 熟悉 程度 量 表 上 
给 了 很 低 的 分 值 。 发 现 不 一 致 时 ， 要 列 出 问卷 序号 、 记 录 序 号 、 变 量 名 称 、 错 误 类 别 等 ， 便 
于 进一步 核对 和 纠正 。 


2. 无 效 值 和 缺失 值 的 处 理 


由 于 调查 、 编 码 和 录入 误差 ， 数 据 中 可 能 存在 一 些 无 效 值 和 缺失 值 ， 需 要 给 予 适 当 的 处 
理 。 常 用 的 处 理 方法 有 : 估算 、 整 例 删 除 、 变 量 删 除 和 成 对 删除 。 

估算 〈estimation) 。 最 简单 的 办 法 就 是 用 某 个 变量 的 样本 均值 、 中 位 数 或 众 数 代替 无 效 
值 和 缺失 值 。 这 种 办 法 简单 ， 但 没有 充分 考虑 数据 中 已 有 的 信息 ， 误 差 可 能 较 大 。 另 一 种 办 
法 就 是 根据 调查 对 象 对 其 他 问题 的 答案 ， 通 过 变量 之 间 的 相关 分 析 或 逻辑 推论 进行 估计 。 例 
如 ， 某 一 产品 的 拥有 情况 可 能 与 家 庭 收入 有 关 ， 可 以 根据 调查 对 象 的 家 庭 收 入 推算 拥有 这 一 
产品 的 可 能 性 。 

整 例 删除 〈casewise deletion〉 是 剔除 含有 缺失 值 的 样本 。 由 于 很 多 问卷 都 可 能 存在 缺失 
值 ， 这 种 做 法 的 结果 可 能 导致 有 效 样本 量 大 大 减少 ， 无 法 充分 利用 已 经 收集 到 的 数据 。 因 
此 ， 只 适合 关键 变量 缺失 ， 或 者 含有 无 效 值 或 缺失 值 的 样本 比重 很 小 的 情况 。 

变量 删除 (variable deletion) 。 如 果 某 一 变量 的 无 效 值 和 缺失 值 很 多 ， 而 且 该 变量 对 于 
所 研究 的 问题 不 是 特别 重要 ， 则 可 以 考虑 将 该 变量 删除 。 这 种 做 法 减少 了 供 分 析 用 的 变量 数 
目 ， 但 没有 改变 样本 量 。 

成 对 删除 (pairwise deletion) 是 用 一 个 特殊 码 〈 通 常 是 9、99、9%99 等 ) 代表 无 效 值 和 缺 
失 值 ， 同 时 保留 数据 集中 的 全 部 变量 和 样本 。 但 是 ， 在 具体 计算 时 只 采用 有 完整 答案 的 样 
本 ， 不 同 的 分 析 因 涉 及 的 变量 不 同 ， 其 有 效 样本 量 也 会 有 所 不 同 。 这 是 一 种 保守 的 处 理 方 
法 ， 最 大 限度 地 保留 了 数据 集中 的 可 用 信息 。 

采用 不 同 的 处 理 方法 可 能 对 分 析 结 果 产 生 影响 ， 尤 其 是 当 缺 失 值 的 出 现 并 非 随 机 且 变 量 
之 间 明 显 相 关 时 。 因 此 ， 在 调查 中 应 当 尽 量 避 免 出 现 无 效 值 和 缺失 值 ， 保 证 数据 的 完整 性 。 

无 论 用 海量 数据 还 是 大 数据 来 表征 这 个 时 代 ， 数 据 规模 庞大 、 增 长 迅速 、 类 型 繁多 、 结 
构 各 异 已 成 为 无 法 回避 的 现实 问题 。 如 何 把 繁杂 的 大 数据 变 成 我 们 能 应 付 的 、 有 效 的 “小 ” 
数据 ， 即 针对 特定 问题 而 构建 一 个 干净 、 完 备 的 数据 集 ， 这 一 过 程 变 得 尤为 重要 。 在 大 数据 
时 代 ， 若 不 加 强 数据 清洗 ， 则 GIGO (垃圾 进 ， 垃 圾 出 ) 现象 会 更 加 严重 。 对 数据 的 清洗 之 
后 进行 分 析 挖 掘 的 过 程 就 是 情报 “去 粗 取 精 、 去 伪 存 真 、 化 零 为 整 、 见 微 知 著 ”的 过 程 。 只 
有 通过 清洗 与 过 滤 得 到 干净 完备 的 数据 ， 才 能 通过 分 析 与 挖掘 得 到 可 以 让 人 放心 的 、 可 用 于 
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支撑 决策 的 情报 。 有 时 决策 者 似乎 只 需要 一 个 简单 的 数 ， 但 是 为 了 得 到 这 一 个 数 ， 我 们 需要 
搜集 大 量 数据 并 进行 有 效 的 分 析 与 处 理 。 


本 .。 7。 云 计算 时 代 的 数据 集成 技术 


随 着 公有 云 平台 和 私有 云 平台 的 流行 ， 数 据 集成 问题 越 来 越 重 要 。 以 往 存储 在 企业 内 部 
的 信息 ， 现 在 要 分 散在 不 同 的 公有 云 平 台 上 。 这 些 信息 ， 要 进行 广泛 的 共享 。 企 业内 部 部 署 
的 系统 、 公 有 云 平 台 上 部 署 的 系统 ， 彼 此 之 间 都 需要 共享 信息 。 

到 目前 为 止 ， 数 据 集成 焦点 还 集中 于 现 有 的 集成 技术 ， 包 括 传统 的 和 非 传统 的 。 所 执行 
的 任务 包括 : 数据 复制 、 语 义 解 析 、 数 据 清洗 、 海 量 数据 迁移 。 这 些 技术 帮助 企业 在 云 一 云 
之 间 、 云 一 企业 之 间 ， 或 者 企业 一 企业 之 间 传输 数据 ， 以 支持 核心 业务 流程 。 过 去 的 几 年 
里 ， 这 些 技术 一 直 在 演进 以 适应 混合 云 以 及 多 云 架构 ， 当 然 还 要 适应 大 数据 集 的 出 现 。 随 着 
云 计 算 技术 的 成 熟 ， 数 据 集成 将 呈现 新 的 形式 、 扮 演 新 的 角色 ， 并 贡献 新 的 价值 。 数 据 在 云 
上 存储 ， 和 在 非 云 系统 上 存储 的 方法 不 同 。 新 的 数据 集成 的 功能 应 能 够 分 别处 理 这 两 种 存储 
方法 ， 并 高 效 地 进行 数据 结构 和 内 容 的 处 理 ， 从 而 让 目标 系统 如 同 访问 本 地 数据 一 样 。 海 量 
数据 迁移 包括 ETL〈 抽 取 一 转换 一 加 载 ) 功能 ， 并 包括 海量 数据 的 定时 迁移 、 内 容 和 结构 的 
变更 ， 以 满足 目标 系统 ， 例 如 云 数据 仓库 的 需要 。 数 据 清洗 技术 ， 使 数据 集成 过 程 中 能 够 去 
掉 或 者 改正 错误 的 和 不 准确 的 数据 。 在 数据 集成 的 其 他 操作 中 ， 尤 其 是 从 一 个 系统 传输 信息 
到 另 一 系统 时 ， 都 需要 进行 数据 清洗 。 随 着 云 计算 成 为 企业 的 主流 平台 ， 数 据 集成 的 世界 也 
需要 跟 进 ， 要 开拓 和 扩展 新 的 能 力 。 


(1) 智能 数据 服务 搜索 ， 是 一 种 数据 集成 技术 ， 能 够 自动 发 现 和 定义 数据 服务 。 这 种 技 
术 将 成 为 云 计算 和 非 云 计算 系统 生产 数据 和 消费 数据 的 主流 机 制 。 就 是 说 ， 可 以 搜寻 到 或 者 
重新 搜寻 到 企业 内 部 存在 的 数据 服务 。 更 重要 的 是 ， 搜 寻 到 公有 云 上 的 数据 服务 ， 找 到 数据 
服务 的 位 置 、 提 供 的 功能 ， 以 及 如 何 访问 这 些 数据 服务 。 企 业 就 能 够 利用 这 些 编目 来 理解 所 
有 可 用 的 数据 资产 ， 并 利用 这 些 有 用 的 数据 资产 来 支持 核心 业务 流程 。 

(2) 数据 虚拟 化 ， 企 业 希 望 利用 新 的 虚拟 化 结构 来 重新 定义 现 有 的 数据 库 ， 并 把 这 些 数 
据 库 以 定义 好 的 数据 服务 的 形式 ， 提 供给 外 部 。 完 全 可 以 用 新 的 虚拟 数据 库 结构 ， 置 于 现存 
数据 库 之 上 ， 从 而 重新 定义 数据 库 的 访问 方式 。 这 样 一 来 ， 就 不 需要 冒险 去 重新 构建 后 台数 
据 库 ， 便 可 以 满足 云 计 算 系 统 的 需要 。 

(3) 数据 编排 ， 和 服务 编排 类 似 ， 定 义 数据 之 间 进 行 交互 以 形成 方案 的 能 力 。 定 义 混合 
的 数据 点 ， 也 许 是 销售 和 客户 ， 以 形成 新 的 数据 服务 来 服务 企业 内 部 和 外 部 用 户 。 这 样 ， 使 
用 数据 的 用 户 ， 将 能 够 更 好 控制 数据 对 每 一 应 用 视图 的 用 途 ， 而 不 必 更 改 数据 的 物理 结构 和 
内 容 。 

(4) 数据 标识 ， 从 结构 和 实例 两 个 角度 连接 数据 到 用 户 和 机 器 的 能 力 。 主 要 控制 谁 和 什 
么 系统 能 够 消费 数据 ， 并 看 到 内 容 。 这 对 适应 各 种 变更 和 扩展 的 法 规 ， 以 及 各 种 内 部 数据 安 
全 策略 来 说 ， 带 来 很 大 便利 。 数 据 容 器 控制 对 数据 的 访问 ， 以 及 设置 在 数据 中 的 数据 标识 规 
则 。 这 将 会 是 一 个 通用 的 机 制 ， 用 在 企业 和 公有 云 提供 者 之 间 。 
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(5) 身份 识别 和 集中 信用 也 是 控制 数据 访问 权限 机 制 的 新 一 代 技术 。 通 过 提供 集中 化 的 
位 置 去 验证 数据 (结构 和 内 容 ) ， 验 证 要 访问 和 操作 数据 的 用 户 和 设备 ， 把 数据 标识 提高 到 
另 一 个 层次 。 这 种 机 制 意味 着 能 够 了 解数 据 存放 的 位 置 ， 并 将 授权 用 户 匹 配 到 授权 的 数据 ， 
从 数据 库 、 对 象 到 实例 。 


水 .8 云 推荐 


云 推荐 是 一 款 面向 网 站 的 高 速 、 稳 定 、 易 用 、 免 费 的 站 内 个 性 智能 推荐 系统 。 云 推荐 Be9 由 
国内 著名 统计 技术 服务 商 CNZZ 于 2012 年 11 月 推出 一 款 智 能 站 内 内 容 推 荐 系统 。 云 推荐 运 
用 了 云 计 算 〈Cloud Computing) 技术 的 推荐 引擎 。 该 推荐 引擎 和 一 般 的 推荐 引擎 不 同 ， 云 推 
荐 引擎 不 需要 部 署 在 网 站 的 服务 器 上 ， 而 是 统一 部 署 在 第 三 方 的 云 计 算 平台 上 。 

目前 国内 阿里 巴巴 公司 和 CNZZ 合作 ， 运 用 阿里 云 先 进 的 云 计算 系统 ， 支 持 海量 网 页 数 
据 和 个 性 用 户 行为 分 析 ; 同时 依托 CNZZ 网 站 统计 提供 多 角度 的 专业 数据 分 析 报 表 ， 达 到 帮 
助 网 站 向 用 户 精准 推送 个 性 内 容 、 提 升 网 站 流量 、 加 强 用 户 黏 性 的 目的 。 

因此 ， 网 站 不 需要 付出 任何 硬件 、 带 宽 的 成 本 ， 也 免除 了 推荐 系统 的 开发 和 维护 代价 ， 
只 需要 部 署 云 推荐 引擎 的 一 段 js 代码 ， 就 可 以 实现 站 内 文章 和 热 词 智能 推荐 ， 极 大 地 降低 了 
网 站 的 使 用 和 开发 成 本 。 

云 推荐 通过 部 署 在 网 站 上 的 js 代码 动态 展示 针对 当前 页 面 的 推荐 效果 ， 纯 异步 加 载 ， 不 
会 影响 网 页 打开 速度 ， 同 时 收集 用 户 的 访问 历史 ， 自 动 计算 文章 的 热门 度 、 文 章 之 间 的 关联 
度 、 用 户 的 阅读 历史 、 兴 趣 推测 、 用 户 兴趣 类 聚 、 文 章 主 题词 提取 等 ， 基 于 这 些 算 法 的 不 同 
组 合 ， 针 对 不 同 网 站 提供 不 同 的 最 佳 推荐 效果 。 

由 于 各 个 网 站 共享 同一 个 推荐 引擎 平台 ， 所 以 云 推荐 必须 基于 云 计 算 技 术 来 处 理 海量 数 
据 计 算 ， 不 仅 互 联网 上 的 不 同 网 站 的 文章 集合 是 海量 的 ， 而 且 用 户 集合 也 是 海量 的 ， 这 样 的 
计算 规模 已 经 不 能 通过 单机 或 者 简单 的 多 机 计算 来 处 理 ， 必 须 依赖 成 熟 的 分 布 式 存储 
(DFS) 和 并 行 计算 框架 (Map-Reduce) 来 支持 。 同 样 ， 推 荐 技术 离 不 开 搜索 技术 的 支持 ， 
在 关键 词 匹配 算法 中 ， 采 取 和 搜索 引擎 类 似 的 排序 逻辑 ， 整 体系 统 和 搜索 有 相似 之 处 。 

云 推荐 的 技术 优势 与 特点 说 明 如 下 。 


结合 CNZZ 统计 分 析 ， 贴 合用 户 轨迹 推荐 最 佳 内 容 。 

用 户 个 性 行为 与 全 网 分 析 结 合 ， 有 效 盘 活 网 站 长 尾 、 新 老 数 据 。 
多 样 性 算法 支持 ， 涵 盖 关 键 词 、 用 户 行为 、 数 据 分 类 等 领域 。 
根据 网 站 特点 ， 智 能 调整 各 种 贡献 内 容 比例 ， 实 现 个 性 化 推荐 。 
智能 推荐 网 页 内 容 ， 引 发 新 页 面 曝光 、 快 速 提 升 网 站 流量 。 

了 解 用户 最 感 兴趣 的 内 容 ， 提 高 用 户 访问 深度 ， 增 加 用 户 夭 性 。 
提供 专业 的 深度 分 析 报表 ， 实 时 监控 推荐 数据 。 

提供 丰富 的 推荐 样式 模版 ， 支 持 自 定义 设置 ， 保 持 风格 统一 。 





67 





云 计算 环境 下 Spark 大 数据 处 理 技术 与 实践 


了 .日 本章 小 结 


云 计 算 正 向 大 数据 延伸 ， 如 若 说 云 计算 铺 好 了 路 桥 ， 大 数据 就 是 在 这 些 信息 高 速 路 上 行 
走 的 车 辆 。 云 计算 向 大 数据 延伸 的 特征 就 是 数据 的 智能 化 应 用 。 数 据 的 快速 增长 带 来 了 数据 
存储 、 处 置 、 剖 析 的 巨大 压力 ， 以 数据 智能 剖析 为 特征 的 大 数据 技术 引入 ， 成 为 企业 提升 竞 
争 力 的 有 力 工具 。 大 数据 技术 与 云 计算 的 发 展 亲密 相关 ， 大 数据 技术 是 云 计算 技术 的 延伸 。 
大 数据 技术 涵盖 了 从 数据 的 海量 存储 、 处 置 到 应 用 多 方面 的 技术 ， 包 括 海量 分 布 式 文件 系 
统 、 并 行 计算 框架 、 非 SQL 数据 库 、 实 时 流 数据 处 置 以 及 智能 剖析 技术 《〈 如 模式 识别 、 自 然 
语言 理解 、 应 用 知识 库 ) 等 。 随 着 社会 化 网 络 、 移 动 支付 以 及 物 联 网 的 发 展 ， 实 体 经 济 和 虚 
拟 世 界 有 更 多 的 交集 ， 数 据 的 价值 将 不 停 地 提升 。 

本 章 介 绍 了 大 数据 与 云 的 融合 关系 、 云 和 大 数据 的 安全 隐私 问题 、 大 数据 基于 云 的 商业 
价值 、 大 数据 向 云 的 迁移 、 大 数据 清洗 及 精准 推荐 等 基于 云 的 大 数据 延展 技术 。 
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4Spark 大 数据 处 理 基础 > 


Spark 是 一 个 基于 内 存 计 算 的 开源 集群 计算 系统 ， 目 的 是 更 快速 地 进行 数据 分 析 。Spark 
由 加 州 伯克利 大 学 AMP 实验 室 Matei 为 主 的 团队 使 用 Scala 开发 ， 其 核心 部 分 的 代码 只 有 63 
个 Scala 文件 ， 非 常 轻 量 级 BE]。 Spark 提供 了 与 Hadoop 相似 的 开源 集群 计算 环境 ， 但 基于 内 
存 和 友 代 优化 的 设计 ，Spark 在 某 些 工作 负载 表现 更 优秀 。 到 目前 为 止 ，Spark 开源 生态 系统 
得 到 了 大 幅 增长 ， 已 成 为 大 数据 领域 最 活跃 的 开源 项 目 之 一 ， 当 下 已 活跃 在 Hortonworks、 
EN Cloudera、MapR 和 Pivotal 等 众多 知名 大 数据 公司 。 本 章 主要 介绍 Spark 大 数据 计算 框 
、 架 构 、 计 算 模型 和 数据 管理 策略 及 Spark 在 工业 界 的 应 用 。 


Spark 大 数据 处 理 技术 


Spark 拥有 Hadoop Map-Reduce 所 具有 的 优点 ， 但 不 同 于 Map-Reduce 的 是 Job 中 间 输 出 
和 结果 可 以 保存 在 内 存 中 ， 从 而 不 再 需要 读 写 HDFS， 因 此 Spark 能 更 好 地 适用 于 数据 挖掘 
与 机 器 学 习 等 需要 人 迭代 的 Map-Reduce 的 算法 。Spark 基于 内 存 和 从 代 优化 的 设计 ， 使 Spark 
在 交互 式 数据 分 析 和 数据 挖掘 工作 负载 中 表现 得 更 加 优秀 


4.1.1 Spark 系统 概述 

Spark 基于 内 存 计算 ， 提 高 了 在 大 数据 环境 下 数据 处 理 的 实时 性 ， 同 时 保证 了 高 容错 性 
和 高 可 伸缩 性 ， 允 许 用 户 将 Spark 部 署 在 大 量 廉价 硬件 之 上 ， 形 成 集群 。Spark 于 2009 年 诈 
生 于 加 州 大 学 伯克利 分 校 AMPLab。 目 前 ， 已 经 成 为 Apache 软件 基金 会 旗下 的 顶级 开源 项 目 B9。 

AMPLab 开发 以 Spark 为 核心 的 BDAS 时 提出 的 目标 是 : one stack to rule them all， 也 就 
是 说 在 一 套 软件 栈 内 完成 各 种 大 数据 分 析 任务 。 相 对 于 MapReduce 上 的 批量 计算 、 和 迭代 型 计 
算 以 及 基于 Hive 的 SQL 查询 ，Spark 可 以 带 来 上 百倍 的 性 能 提升 。 目 前 Spark 的 生态 系统 日 
趋 完善 ，Spark SQL 的 发 布 、Hive on Spark 项 目的 启动 以 及 大 量 大 数据 公司 对 Spark 全 栈 的 
支持 ， 让 Spark 的 数据 分 析 范 式 更 加 丰富 

Spark 是 一 个 计算 框架 ， 而 eo 中 包含 计算 框架 MapReduce 和 分 布 式 文件 系统 
HDFS，Hadoop 更 广泛 地 说 还 包括 在 其 生态 系统 上 的 其 他 系统 ， 如 HBase、Hive 等 。Spark 
是 MapReduce 的 替代 方案 ， 而 且 兼 容 HDFS、Hive 等 分 布 式 存储 层 ， 可 融入 Hadoop 的 生态 
系统 ， 以 弥补 缺失 MapReduce 的 不 足 。Spark 的 一 站 式 解 决 方案 有 很 多 的 优势 591: 
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1. 全 栈 多 计算 范式 的 高 效 数据 流水 线 


Spark 支持 复杂 查询 。Spark 还 支持 SQL 查询 、 流 式 计算 、 机 器 学 习 和 图 算法 。 同 时 ， 
用 户 可 以 在 同一 个 工作 流 中 无 颖 搭配 这 些 计 算 范式 。 


2. 轻 量 级 快速 处 理 


Scala 语言 的 简洁 和 丰富 的 表达 力 ， 以 及 Spark 充分 利用 和 集成 Hadoop 等 其 他 第 三 方 组 
件 ， 同 时 着 眼 于 大 数据 处 理 ，Spark 通过 将 中 间 结 果 缓 存在 内 存 减 少 磁盘 1/O 来 达到 性 能 的 提 
天; 


3. Spark 支持 多 语言 

Spark 支持 通过 Scala、Java 及 Python 编写 程序 ， 这 允许 开发 者 在 自己 熟悉 的 语言 环境 下 
进行 工作 。 它 自 带 了 80 多 个 算 子 ， 同 时 允许 在 Shell 中 进行 交互 式 计算 。 用 户 可 以 利用 
Spark 像 书写 单机 程序 一 样 书写 分 布 式 程序 ， 轻 松 利用 Spark 搭建 大 数据 内 存 计算 平台 并 充分 
利用 内 存 计算 ， 实 现 海量 数据 的 实时 处 理 。 


4. 与 HDFS 等 存储 层 兼 容 


Spark 可 以 运行 在 任何 Hadoop 数据 源 上 ， 如 Hive、HBase、HDFS 等 。 这 个 特性 让 用 户 
可 以 轻易 迁移 已 有 的 持久 化 层 数据 。 


5. 任务 调度 的 开销 小 
Spark 采用 了 事件 驱动 的 类 库 AKKA 来 启动 任务 ， 通 过 线程 池 复 用 线程 来 避免 进程 或 线 
程 的 启动 和 切换 开销 。 


6. 优化 的 数据 存储 


Spark 抽象 出 分 布 式 内 存 存储 结构 弹性 分 布 式 数据 集 (RDD) ， 进 行 数据 的 存储 。RDD 
支持 粗 粒度 写 操作 ， 但 对 于 读 取 操作 ，RDD 可 以 精确 到 每 条 记录 ， 这 使 得 RDD 可 以 用 来 作 
为 分 布 式 索引 。 


4.1.2 Spark 生态 系统 BDAS 〈 伯 利克 分 析 栈 ) 

目前 ，Spark 已 经 发 展 成 为 包含 众多 子 项 目的 大 数据 计算 平台 。 伯 克利 将 Spark 的 整个 生 
态 系统 称 为 伯克利 数据 分 析 栈 (BDAS) 。 其 核心 框架 是 Spark， 同 时 BDAS 涵盖 支持 结构 化 
数据 SQL 查询 与 分 析 的 查询 引擎 Spark SQL 和 Shark， 提 供 机 器 学 习 功 能 的 系统 MLbase 及 
底层 的 分 布 式 机 器 学 习 库 MLlib、 并 行 图 计算 框架 GraphX、 流 计算 框架 Spark Streaming、 采 
样 近似 计算 查询 引擎 BlinkDB、 内 存 分 布 式 文件 系统 Tachyon、 资 源 管理 框架 Mesos 等 子 项 
目 。 这 些 子 项 目 在 Spark 上 层 提供 了 更 高 层 、 更 丰富 的 计算 范式 。 图 4-1 所 示 为 Spark 生态 系 
统 项 目 结构 图 。 
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Shark 
SQL API 


Fast memc 








Hadoop Distributed File System(HDFS) 
《分 布 式 文件 系统 》 








图 4-1 Spark 生态 系统 项 目 结构 图 


4.1.3 Spark 的 用 武之 地 

Spark 引进 了 弹性 分 布 式 数据 集 RDD 〈Resilient Distributed Dataseb)) 的 抽象 ， 它 是 分 布 
在 一 组 节点 中 的 只 读 对 象 集 合 ， 这 些 集合 是 弹性 的 ， 如 果 数 据 集 一 部 分 丢失 ， 则 可 以 根据 
“血统 ”( 即 允许 基于 数据 衍生 过 程 重建 部 分 数据 集 的 信息 〉 对 它们 进行 重建 四。 另外 在 
RDD 计算 时 可 以 通过 CheckPoint 来 实现 容错 ， 而 CheckPoint 有 两 种 方式 : CheckPoint Data 
和 Logging The Updates， 用 户 可 以 控制 采用 哪 种 方式 来 实现 容错 8。 

Spark 提供 的 数据 集 操作 类 型 有 很 多 种 ， 大 致 分 为 : Transformations 和 Actions 两 大 类 。 
Transformations 包括 Map、Filter、FlatMap、Sample、GroupByKey、ReduceByKey、Union、 
Join、Cogroup、MapValues、Sort 和 PartionBy 等 多 种 操作 类 型 ， 同 时 还 提供 Count; Actions 
包括 Collect、Reduce、Lookup 和 Save 等 操作 。 另 外 各 个 处 理 节点 之 间 的 通信 模型 不 再 像 
Hadoop 只 有 Shuffle 一 种 模式 ， 用 户 可 以 命名 、 物 化 ， 控 制 中 间 结 果 的 存储 、 分 区 等 1。 

目前 大 数据 处 理 场景 有 以 下 几 个 类 型 : 


(1) 复杂 的 批量 处 理 (Batch Data Processing) ， 偏 重点 在 于 处 理 海 量 数据 的 能 力 ， 至 
于 处 理 速度 可 忍受 ， 通 常 的 时 间 可 能 是 在 数 十 分 钟 到 数 小 时 。 

(2) 基于 历史 数据 的 交互 式 查 询 (Interactive Query) ， 通 常 的 时 间 在 数 十 秒 到 数 十 分 钟 
之 间 。 

(3) 基于 实时 数据 流 的 数据 处 理 〈Streaming Data Processing) ， 通 常 在 数 百 毫秒 到 数秒 
之 间 。 
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目前 对 以 上 三 种 场景 需求 都 有 比较 成 熟 的 处 理 框架 ， 第 一 种 情况 可 以 用 Hadoop 的 
MapReduce 来 进行 批量 处 理 海量 数据 ， 第 二 种 情况 可 以 用 Impala 进行 交互 式 查询 ， 对 于 第 三 
种 情况 可 以 用 Storm 分 布 式 处 理 框架 处 理 实时 流 式 数据 。 以 上 三 者 都 相对 独立 、 各 自 一 套 ， 
维护 成 本 比较 高 ， 而 Spark 的 出 现 能 够 一 站 式 平台 满足 以 上 需求 。 

通过 以 上 分 析 ， 总 结 出 Spark 使 用 场景 有 以 下 几 个 外 所), 


(1) Spark 是 基于 内 存 的 迭代 计算 框架 ， 适 用 于 需要 多 次 操作 特定 数据 集 的 应 用 场合 。 
需要 反复 操作 的 次 数 越 多 ， 所 需 读 取 的 数据 量 越 大 ， 受 益 越 大 。 数 据 量 小 但 是 计算 密集 度 较 
大 的 场合 ， 受 益 就 相对 较 小 。 

(2) 由 于 RDD 的 特性 ，Spark 不 适用 那 种 异步 细 粒 度 更 新 状态 的 应 用 ， 例 如 Web 服务 
的 存储 或 者 是 增 量 的 Web 爬虫 和 索引 ， 即 对 于 那 种 增 量 修改 的 应 用 模型 不 适合 。 

(3) 数据 量 不 是 特别 大 ， 但 是 要 求实 时 统计 分 析 需 求 。 


4.1.4 Spark 大 数据 处 理 框 架 

Spark 是 整个 BDAS 的 核心 ， 生 态 系统 中 的 各 个 组 件 通过 Spark 来 实现 对 分 布 式 并 行 任 
务 处 理 的 程序 支持 唤 。Spark 架构 采用 了 分 布 式 计算 中 的 Master-Slave 模型 。Master 是 对 应 集 
群 中 含有 Master 进程 的 节点 ，Slave 是 集群 中 含有 Worker 进程 的 节点 。Spark 结构 图 如 
图 4-2 所 示 。 


@ Master 作为 整个 集群 的 控制 器 ， 负 责 整 个 集群 的 正常 运行 。 
Worker 相当 于 是 计算 节点 ， 接 收 主 节 点 命令 与 进行 状态 汇报 。 
Executor 负责 任务 的 执行 。 

Client 作为 用 户 的 客户 端 负 责 提 交 应 用 。 

Driver 负责 控制 一 个 应 用 的 执行 。 





Driver 
Spark Context 


RDD DAG 


DAG Scheduler 
Client | 
TaskScheduler 


SparkEnv 


图 4-2 Spark 结构 图 



























































4 


第 4 章 Spark 大 数据 处 理 基 础 


4.1.5 Spark 运行 模式 分 类 及 术语 

Spark 的 运行 模式 多 种 多 样 、 灵 活 多 变 ， 部 署 在 单机 上 时 ， 既 可 以 用 本 地 模式 运行 ， 也 
可 以 用 伪 分 布 式 模式 运行 。 而 当 以 分 布 式 集群 的 方式 部 署 时 ， 也 有 众多 的 运行 模式 可 供 选 
择 ， 这 取决 于 集群 的 实际 情况 。 底 层 的 资源 调度 既 可 以 依赖 于 外 部 的 资源 调度 框架 ， 也 可 以 
使 用 Spark 内 建 的 Standalone 模式 。 对 于 外 部 资源 调度 框架 的 支持 ， 目 前 的 实现 包括 相对 稳 
定 的 Mesos 模式 ， 以 及 还 在 持续 开发 更 新 中 的 Hadoop YARN 模式 中 49。 

在 实际 应 用 中 ，Spark 应 用 程序 的 运行 模式 取决 于 传递 给 SparkContext 的 Master 环境 变 
量 的 值 ， 个 别 模式 还 需要 依赖 辅助 的 程序 接口 来 配合 使 用 ， 目 前 所 支持 的 Master 环境 变量 由 
特定 的 字符 串 或 URL 所 组 成 。 表 4-1 给 出 Spark 运行 模式 ， 表 4-2 给 出 Spark 常用 术语 。 


表 41 Spark 运行 模式 


运行 环境 模式 描述 


本 地 模式 “| 常用 于 本 地 开发 测试 ， 本 地 还 分 为 local 单线 程 和 local-cluster 多 线程 


典型 的 Mater/slave 模式 ， 不 过 也 能 看 出 Master 是 有 单 点 故障 的 ，Spark 支持 
集群 模式 ZooKeeper 来 实现 HA 


运行 在 YARN 资源 管理 器 框架 之 上 ， 由 YARN 负责 资源 管理 ，Spark 负责 任 
集群 模式 | 务 调度 和 计算 
on mesos | 集群 模式 运行 在 Mesos 资源 管理 器 框架 之 上 ， 由 Mesos 负责 资源 管理 ，Spark 负责 任 
务 调度 和 计算 


集群 模式 比如 AWS 的 EC2， 使 用 这 个 模式 能 很 方便 地 访问 Amazon 的 S3; Spark 支持 
多 种 分 布 式 存储 系统 : HDFS 和 S3 


表 4-2 Spark 常用 术语 





术语 描述 
Spark 的 应 用 程序 ， 包 含 一 个 Driver program 和 若干 Executor 
Spark 应 用 程序 的 入 口 ， 负 责 调度 各 个 运算 资源 ， 协 调 各 个 Worker Node 上 的 
Executor 
运行 Application 的 main 〇 函数 并 且 创 建 SparkContext 
区 是 为 Application 运行 在 Worker node 上 的 一 个 进程 ， 该 进程 负责 运行 Task， 并 且 负 
Executor 责 将 数据 存在 内 存 或 者 磁盘 上 。 
每 个 Application 都 会 申请 各 自 的 Executor 来 处 理 任务 


在 集群 上 获取 资源 的 外 部 服务 
Se 例如 : Standalone、Mesos、YARN) 
Worker Node 和 代码 的 节点 ， 运 行 一 个 或 多 个 Executor 进程 


| Stage ”| 每 个 Job 会 被 拆 分 成 很 多 组 task， 每 组 任务 被 称 为 a ge， 也 称 TaskSet 

bp | RDD 是 Resilient Distributed Datasets 的 简称 ， 中 文 为 弹性 分 布 式 数据 集 ， 它 是 Spark 
最 核心 的 模块 和 类 
是 Spark API 的 一 种 类 型 ，Transformation 返回 值 还 是 一 个 RDD。 

Transformations 所 有 的 Transformation 采用 的 都 是 懒 策略 ， 如 果 只 是 将 Transformation 提交 是 不 会 执 
行 计算 的 


是 Spark API 的 一 种 类 型 ，Action 返回 值 不 是 一 个 RDD， 而 是 一 个 Scala 集合 。 计 算 
Ne 只 有 在 Action 被 提交 的 时 候 计算 才 被 触发 


SparkContext 
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其 实 这 些 运 行 模式 尽管 表面 上 看 起 来 差异 很 大 ， 但 总 体 上 来 说 ， 都 基于 一 个 相似 的 工作 
流程 。 它 们 从 根本 上 都 是 将 Spark 的 应 用 分 为 任务 调度 和 任务 执行 两 个 部 分 ， 上 面 图 4-2 所 
示 的 是 在 分 布 式 模式 下 ，Spark 的 各 个 调度 和 执行 模块 的 大 致 框架 。 对 于 本 地 模式 来 说 ， 其 
内 部 程序 逻辑 结构 也 是 类 似 的 ， 只 是 其 中 部 分 模块 有 所 简化 。 


4.2 Spark 2.0.0 安装 配置 


Spark 最 早 是 为 了 在 Linux 平台 上 使 用 而 开发 的 ， 在 生产 环境 中 也 是 部 署 在 Linux 平台 
上 ， 但 是 Spark 在 UNIX、Windwos 和 Mac OS X 系统 上 也 运行 良好 。 不 过 ， 在 Windows 上 
运行 Spark 稍 显 复杂 ， 必 须 先 安装 Cygwin 以 模拟 Linux 环境 ， 才 能 安装 Spark。 

Spark 的 安装 简便 ， 用 户 可 以 在 官网 上 下 载 到 最 新 的 软件 包 ， 网 址 为 http : 
//spark.apache.org/。 由 于 Spark 主要 使 用 HDFS 充当 持久 化 层 ， 所 以 完整 地 使 用 Spark 需要 预 
先 安装 Hadoop。 

Spark 在 生产 环境 中 ， 主 要 部 署 在 安装 有 Linux 系统 的 集群 中 。 在 Linux 系统 中 安装 
Spark 需要 预先 安装 JDK、Scala 等 所 需 的 依赖 。 由 于 Spark 是 计算 框架 ， 所 以 需要 预先 在 集 
群 内 有 搭建 好 存储 数据 的 持久 化 层 ， 如 HDFS、Hive、Cassandra 等 。 最 后 用 户 就 可 以 通过 启 
动 脚本 运行 应 用 了 。 下 面 介绍 Spark 2.0.0 版 本 集群 的 安装 和 部 署 。 


4.2.1 在 Linux 集群 上 安装 与 配置 Spark 

从 Spark 项 目 网 站 http://spark.apache.org 下 载 页 面 获取 Spark。 本 章 采 用 Spark 2.0.0 版 
本 。Spark 采用 Hadoop 的 客户 端 库 的 HDFS 和 YARN， 下 载 预 打 包 一 些 流行 的 Hadoop 版 
本 。 用 户 还 可 以 下 载 “ 免 费 Hadoop”， 并 通过 扩充 Spark 的 类 路 径 ， 使 用 任何 Hadoop 版 本 
运行 Spark。Spark 下 载 页 面 如 图 4-3 所 示 。 

Spark 可 运行 在 Windows 和 UNIX 系统 (如 Linux、Mac OS) 上 ， 很 容易 在 本 地 已 经 安 
装 Java 的 计算 机 上 运行 Spark 系统 ， 所 以 你 需要 的 是 有 Java 安装 在 你 的 系统 路 径 ， 或 
JAVA_HOME 环境 变量 指向 一 个 Java 安装 。 

Spark 运行 在 Java 7+、Python 2.6+/3.4+ 和 3.1+。 对 于 Scala API，Spark 2.0.0 使 用 Scala 
2.11， 你 将 需要 使 用 一 个 兼容 的 Scala 版 本 〈2.11.X) 。Spark 2.0.0 默认 Scala 版 本 为 2.11。 
Scala 2.10 用 户 要 下 载 Spark 源码 包 并 以 Scala 2.10 构建 Spark 支撑 。 
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实验 使 用 的 环境 是 安装 Ubuntu 14.04 LTS 两 台 计 算 机 ， 一 个 当 作 Master， 一 个 当 作 


Slave。 


@ JDK 版本: jdk1.7.0_60。 

@ Scala 版 本 : Scala-2.11。 

@ ”Hadoop 版 本 : Hadoop 2.7。 
@ Spark 版 本 : spark-2.0.0。 


1. 安装 JDK 
安装 JDK 大 致 分 为 下 面 4 个 步骤 。 


(1) 用 户 可 以 在 Oracle JDK 的 官网 下 载 相 应 版 本 的 JDK， 本 例 以 jdk1.7.0_60 为 例 ， 官 
网 地 址 为 http: //www.oracle.com/technetwork/java/javase/downloads/index.html。 

(2) 下 载 后 ， 在 解压 出 JDK 的 目录 下 执行 bin 文件 。 

(3) 配置 环境 变量 ， 在 /etc/profile 增加 以 下 代码 。 





(4) 使 profile 文件 更 新 生效 。 





以 下 为 JDK 安装 代码 : 
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2. 安装 Scala 


Scala 官网 提供 各 个 版 本 的 Scala， 用 户 需要 根据 Spark 官方 规定 的 Scala 版 本 进行 下 载 和 
安装 。Scala 官网 地 址 为 http: /Wwww.scala-lang.org/。 本 章 以 Scala-2.11 为 例 。 


(1) 下 载 scala-2.11.1.tgz。 
(2) 在 目录 下 解压 。 


(3) 配置 环境 变量 ， 在 /etc/profile 中 添加 下 面 的 内 容 。 





(4) 使 profile 文件 更 新 生效 。 





以 下 为 Scala 安装 代码 : 
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3. 配置 SSH 免 密 码 登录 


Spark 的 Master 节点 向 Worker 节点 发 命令 需要 通过 ssh 进行 发 送 ， 用 户 不 希望 Master 每 
发 送 一 次 命令 就 输入 一 次 密码 ， 因 此 需要 实现 Master 无 密码 登录 到 所 有 Worker。Master 作为 
客户 端 ， 要 实现 无 密码 公 钥 认 证 ， 连 接 到 服务 端 Worker。 需 要 在 Master 上 生成 一 个 密 钥 对 ， 
包括 一 个 公 钥 和 一 个 私 钥 ， 然 后 将 公 钥 复制 到 Worker 上 。 当 Master 通过 ssh 连接 Worker 
时 ，Worker 就 会 生成 一 个 随机 数 ， 并 用 Master 的 公 钥 对 随机 数 进行 加 密 ， 发 送 给 Worker。 
Master 收 到 加 密 数 之 后 ， 再 用 私 钥 进 行 解密 ， 并 将 解密 数 回 传 给 Worker，Worker 确认 解密 数 
无 误 之 后 ， 允 许 Master 进行 连接 。 这 就 是 一 个 公 钥 认证 过 程 ， 其 间 不 需要 用 户 手 工 输入 密 
码 ， 主 要 过 程 是 将 Master 节点 公 钥 复制 到 Worker 节点 上 [1。 


(1) 在 本 地 主机 生成 密 钥 对 。 


这 个 命令 生成 一 个 密 钥 对 : id_rsa ( 私 钥 文 件 ) 和 id_rsa.pub〔 公 钥 文件 ) 。 默 认 被 保存 
在 ~/.ssh/ 目 录 下 。 

(2) 将 公 钥 添加 到 远程 主机 的 authorized_keys 文件 中 。 

将 文件 上 传 到 远程 主机 中 : 


SSH 登录 到 远程 主机 192.168.1.116， 将 公 钥 追加 到 authorized_keys 文件 中 : 


或 直接 运行 命令 : 


(3) 重启 open-ssh 服务 。 


(4) 本 地 测试 。 


4. 安装 Hadoop 
下 面 是 Hadoop 的 安装 过 程 和 步骤 : 


(1) 在 官网 地 址 http://hadoop.apache.org 下 载 安装 Hadoop 2.7。 
(2) 配置 Hadoop 环境 变量 。 


编辑 profile 文件 。 


J 
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在 profile 文件 中 增加 以 下 内 容 。 





(3) 编辑 配置 文件 〈 根 据 设 施 环境 配置 相应 文件 ) 。 
进入 Hadoop 所 在 目录 /usr/local/hadoop/etc/hadoop。 
配置 hadoop-env.sh 文件 。 


配置 core-site.xml 文件 。 
配置 yarn-site.xml 文件 。 
配置 mapred-site.xml 文件 。 


(4) 创建 naamenode 和 datanode 目录 ， 并 配置 其 相应 路 径 。 
创建 namenode 和 datanode 目录 ， 执 行 以 下 命令 : 


执行 命令 后 ， 再 次 回 到 目录 /usr/local/hadoop/etc/hadoop， 配 置 hdfs-site.xml 文件 ， 在 文件 
中 添加 如 下 内 容 : 

配置 主 节点 名 和 端口 号 。 

配置 从 节点 名 和 端口 号 。 

配置 datanode 的 数据 存储 目录 。 

配置 副本 数 。 


(5) 配置 Master 和 Slave 文件 。 
Master 文件 负责 配置 主 节点 的 主机 名 : 


配置 Slaves 文件 添加 从 节点 主机 名 ， 这 样 主 节点 就 可 以 通过 配置 文件 找到 从 节点 ， 和 从 
节点 进行 通信 。 


(6) 将 Hadoop 的 所 有 文件 通过 pssh 分 发 到 各 个 节点 。 
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执行 如 下 命令 : 


(7) 格式 化 Namenode (在 Hadoop 根 目录 下 ) 。 


(8) 启动 Hadoop。 


(9) 查看 是 否 配 置 和 启动 成 功 。 
如 果 在 x86 机 器 上 运行 ， 则 通过 jps 命令 ， 查 看 相应 的 JVM 进程 。 


5. 安装 Spark 


进入 官网 http://spark.apache.org/downloads.html， 下 载 对 应 Hadoop 版 本 的 Spark 程序 
包 ，Spark 下 载 页 面 如 图 4-3 所 示 。 


(1) 下 载 spark-2.0.0-bin-hadoop2.7.tgz， 解 压 到 /home/hadoop/spark 下 。 





(2) 修改 /etc/profile。 





(3) 配置 Spark。 
修改 配置 文件 spark-env.sh。 


修改 spark-env.sh 如 下 : 





修改 配置 文件 slaves。 








在 slaves 中 添加 你 的 Slave 主机 名 : 根据 主机 个 数 添 加 Slave。 





1. # A Spark worker will be started on each of the machines listed below. 
2. # localhost 
es 


配置 Slave。 至 此 ，Master 节点 上 的 Spark 已 配置 完毕 。 把 Master 上 Spark 相关 配置 复制 
到 Slave 中 。 注 三 台 机 器 Spark 所 在 目录 必须 一 致 ， 因 为 Master 会 登录 到 Worker 上 执行 
命令 ，Master 认为 Worker 的 Spark 路 径 与 自己 一 样 。 


(4) 启动 Spark。 





1. cd /home/hadoop/spark/spark-1.6.1 
2. sbin/start-all.sh 


(5) 验证 Spark 是 否 启 动 成 功 。 


使 用 JSP 命令 ， 查 看 Master 和 Slave 上 的 进程 。 
Master: 


adoop@mylinux:~$ jps 
Master 
ResourceManager 
SecondaryNameNode 
NameNode 


hadoop@tests:~$ jps 
16536 DataNode 
16867 Worker 

10674 NodeManager 
1e976 Jps 
hadoop@tests:-$ 





浏览 器 输入 http://masterIP:8080( 将 Master 替换 成 你 的 Master 主机 名 即 可 ) ， 也 可 以 观 
察 到 集群 的 整个 状态 是 否 正常 ， 如 图 4-4 所 示 。 集 群 会 显示 与 图 4-4 类 似 的 画面 ，masterlP 配 
置 为 用 户 的 Spark 集群 的 主 节点 IP。 





Spak! ,,, Spark Master at spark:lImylinux:7077 





Workers 





Running Applications 


Appication D are Cores erav yer hoe Submited Tine User Sete 


Completed Applications 





Appnaanen O as erev per one onea nne User EE urmon 

















图 44 Spark Web 管理 页 
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4.2.2 Spark Shell 

Spark Shell 是 Spark 自 带 的 一 个 快速 原型 开发 工具 ， 在 Spark 目录 下 面 的 bin 目录 下 
面 。Spark 的 交互 式 Shell 提供 了 一 个 简单 的 方式 来 学 习 Spark 的 API， 同 时 也 提供 了 强大 的 
交互 式 数据 处 理 能 力 。Spark Shell 支持 Scala 和 Python 两 种 语言 吧 ]。 

启动 支持 Scala 的 Spark Shell 方式 为 ./bin/spark-shell。 

使 用 yum 安装 Spark 之 后 ， 你 可 以 直接 在 终端 运行 spark-shell 命令 ,或 者 在 Spark 的 
home 目录 /usr/lib/spark 下 运行 bin/spark-shell 命令 ， 这 样 就 可 以 进入 到 Spark 命令 行 交互 模式 。 


1. spark-shell 脚本 代码 
spark-shell 脚本 代码 如 下 : 





81 


云 计 算 环 境 下 Spark 大 数据 处 理 技术 与 实践 





著 第 4 章 ”Spark 大 数据 处 理 基础 























从 上 往 下 一 步 步 分 析 ， 首 先是 判断 是 否 为 Cygwin， 这 里 用 到 了 bash 中 的 case 语法 : 在 
Linux 系统 中 ， uname 命令 的 运行 结果 为 Linux， 其 值 不 等 于 CYGWIN* ， 故 cygwin=false。 





开启 bash 的 posix 模式 : 


获取 上 级 目录 绝对 路 径 用 到 了 dirname 命令 ，bash 中 $0 是 获取 脚本 名 称 : 


从 上 面 可 以 看 到 ， 其 实 最 后 调用 的 是 spark-submit 命令 ， 并 指定 --class 参数 
为 org.apache.spark.repl.Main 类 ， 后 面 接 的 是 spark-submit 的 提交 参数 ， 再 后 面 是 spark- 
shell， 最 后 是 传递 应 用 的 参数 。 
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最 后 ， 是 获取 main 方法 运行 结果 : 


2. Spark-submit 
完整 的 Spark-submit 脚本 内 容 如 下 : 
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首先 是 设置 SPARK_HOME， 并 保留 原始 输入 参数 : 


接 下 来 ， 使 用 while 语句 配合 shift 命令 ， 依 次 判断 输入 参数 。 设 置 SPARK_CONF_DIR 
变量 ， 并 判断 spark-submit 部 署 模式 。 如 果 $SSPARK_CONF_DIR/sparkdefaults.conf 文件 存 
在 ， 则 检查 是 否 设置 spark.driver.extra 开头 的 变量 和 spark.driver.memory 变量 ， 如 果 设 置 了 ， 
则 SPARK _ SUBMIT BOOTSTRAP_DRIVER 设 为 1。 最 后 ， 执 行 的 是 spark-class 命令 ， 输 入 
参数 为 org.apache.spark. deploy. SparkSubmit 类 名 和 原始 参数 。 

3. Spark-class 


该 脚本 首先 还 是 判断 是 否 是 Cygwin， 并 设置 SPARK_HOME 和 SPARK_CONF_DIR 变 
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量 。 运 行 bin/load-spark-env.sh， 加 载 Spark 环境 变量 。spark-class 至 少 需要 传递 一 个 参数 ， 如 
果 没 有 ， 则 会 打印 脚本 使 用 说 明 Usage: spark-class <class>[<args>] 。 如 果 设 置 了 
SPARK MEM 变量 ， 则 提示 SPARK MEM 变量 过 时 ， 应 该 使 用 spark.executor.memory 或 
者 spark.driver.memory 变量 。 设 置 默认 内 存 DEFAULT_MEM 为 512MB， 如 果 SPARK MEM 
变量 存在 ， 则 使 用 SPARK_MEM 的 值 。 

使 用 case 语句 判断 spark-class 传 入 的 第 一 个 参数 的 值 : 
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可 能 存在 以 下 几 种 情况 : 





判断 SPARK_ SUBMIT_BOOTSTRAP_DRIVER 变量 值 ， 如 果 该 值 为 1， 则 运 
org.apache.spark.deploy.SparkSubmitDriverBootstrapper 类 ， 以 替换 原来 的 orga- 
pache.spark.deploy.SparkSubmit 的 类 ， 执 行 的 脚本 为 exec “ SRUNNER ” org.apac- 
he.spark.deploy.SparkSubmitDriverBootstrapper “$@”; 否则， 运行 java 命令 exec 
“SRUNNER”-cp “SCLASSPATH” SJAVA_OPTS “SG@”。 

从 最 后 运行 的 脚本 可 以 看 到 ，spark-class 脚本 的 作用 主要 是 查找 Java 命令 、 计 算 环境 变 
量 、 设 置 JAVA_OPTS 等 ， 至 于 运行 的 是 哪个 Java 类 的 main 方法 ， 取决 
于 SPARK_SUBMIT_BOOTSTRAP_DRIVER 变量 的 值 。 
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4.2.3 Spark RDD 
Spark 最 重要 的 一 个 抽象 概念 是 弹性 分 布 式 数据 集 (Resilient Distributed Dataset) ， 英 文 
简称 RDD。RDD 有 两 种 创建 方式 : 


@ ”从 Hadoop 的 文件 系统 输入 (例如 HDFS) 。 
@ ”由 其 他 已 存在 的 RDD 转换 得 到 新 的 RDD。 


RDD 有 两 种 类 型 的 操作 ， 分 别 是 Action (返回 values) 和 Transformations〈 返 回 一 个 
新 的 RDD) 。 
下 面 的 例子 是 通过 加 载 Spark 目录 下 的 README.md 文件 生成 RDD 的 例子 : 


actions 示例 如 下 : 


下 面 是 transformations 示例 ， 使 用 filter 操作 返回 了 一 个 新 的 RDD， 该 RDD 为 文件 中 数 
据 项 的 子 集 ， 该 子 集 符合 过 滤 条 件 : 


Spark 也 支持 将 actions 和 transformations 一 起 使 用 : 


获取 RDD 的 途径 有 以 下 几 种 : 


(1) 从 共享 的 文件 系统 获取 (如 : HDFS) 。 

(2) 通过 已 存在 的 RDD 转换 。 

(3) 将 已 存在 Scala 集合 (只 要 是 Seq 对 象 ) 并 行 化 ， 通 过 调用 SparkContext 的 
parallelize 方法 实现 。 

(4) 改变 现 有 RDD 的 持久 性 ，RDD 是 懒散 、 短 暂 的 。 


RDD 的 固化 有 两 种 方法 : 

@ cache: 缓存 至 内 存 。 

@ save: 保存 到 分 布 式 文件 系统 。 
操作 RDD 的 两 个 动作 : 
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@ ”Actions: 对 数据 集 计算 后 返回 一 个 数值 value 给 驱动 程序 ， 例 如 : Reduce 将 数据 集 
的 所 有 元 素 用 某 个 函数 聚合 后 ， 将 最 终结 果 返 回 给 程序 。Actions 具体 内 容 如 表 4-3 





























所 示 。 
表 4-3 Actions 具体 内 容 
函数 描述 
odin 通过 函数 func 聚集 数据 集中 的 所 有 元 素 。Func 函数 接受 2 个 参数 ， 返 回 一 个 值 。 这 个 函数 
必须 是 关联 性 的 ， 确 保 可 以 被 正确 地 并 发 执行 
在 Driver 的 程序 中 ， 以 数组 的 形式 ， 返 回 数据 集 的 所 有 元 素 。 这 通常 会 在 使 用 filter 或 者 其 
collect() 他 操作 后 ， 返 回 一 个 足够 小 的 数据 子 集 再 使 用 ， 直 接 将 整个 RDD 集 Collect 返回 ， 很 可 能 
会 让 Driver 程序 OOM 
count() 返回 数据 集 的 元 素 个 数 
返回 一 个 数组 ， 由 数据 集 的 前 n 个 元 素 组 成 。 注 意 ， 这 个 操作 目前 并 非 在 多 个 节点 上 并 行 
take(n) 执行 ， 而 是 Driver 程序 所 在 的 机 器 ， 单 机 计算 所 有 的 元 素 〈Gateway 的 内 存 压力 会 增 大 ， 需 
要 谨慎 使 用 
firstO) 返回 数据 集 的 第 一 个 元 素 ， 类 似 于 take (1) 
saveAsTextFil | 将 数据 集 的 元 素 ， 以 textfile 的 形式 保存 到 本 地 文件 系统 、HDFS 或 者 任何 其 他 Hadoop 支持 
e(path) 的 文件 系统 。Spark 将 会 调用 每 个 元 素 的 toString 方法 ， 并 将 它 转换 为 文件 中 的 一 行文 本 
将 数据 集 的 元 素 ， 以 sequencefile 的 格式 ， 保 存 到 指定 的 目录 下 、 本 地 系统 、HDFS 或 者 任 
saveAsSequen | 何其 他 Hadoop 支持 的 文件 系统 。RDD 的 元 素 必 须 由 key-value 对 组 成 ， 并 都 实现 了 Hadoop 
ceFile(path) “| 的 Writable 接口 ， 或 隐 式 可 以 转换 为 Writable (Spark 包括 了 基本 类 型 的 转换 ， 例 如 Imt、 
Double、String 等 ) 
kreacii(fbne) 在 数据 集 的 每 一 个 元 素 上 ， 运 行 函 数 func。 这 通常 用 于 更 新 一 个 累加 器 变量 ， 或 者 和 外 部 
存储 系统 做 交互 





@ Transformation: 根据 数据 集 创建 一 个 新 的 数据 集 ， 计 算 后 返回 一 个 新 RDD， 如 : 
Map 将 数据 的 每 个 元 素 经 过 某 个 函数 计算 后 ， 返 回 一 个 新 的 分 布 式 数据 集 。 
Transformation 具体 内 容 如 表 4-4 所 示 。 


表 4-4 Transformation 具体 内 容 


函数 描述 
map(func) 返回 一 个 新 的 分 布 式 数据 集 ， 由 每 个 原 元 素 经 过 func 函数 转换 后 组 成 
filter(func) 返回 一 个 新 的 数据 集 ， 由 经 过 func 函数 后 返回 值 为 tme 的 原 元 素 组 成 





类 似 于 map， 但 是 每 一 个 输入 元 素 ， 会 被 映射 为 0 到 多 个 输出 元 素 〈 因 此 ，func 








Ma 函数 的 返回 值 是 一 个 Seq， 而 不 是 单一 元 素 ) 
Te 根据 给 定 的 随机 种 子 seed， 随 机 抽样 出 数量 为 frac 的 数据 
union(otherDataset) | 返回 一 个 新 的 数据 集 ， 由 原 数据 集 和 参数 联合 而 成 








在 一 个 由 《〈K,V) 对 组 成 的 数据 集 上 调用 ， 返 回 一 个 (K，Seq[V]) 对 的 数据 集 。 
groupByKey([numTasks]) | 注意 : 默认 情况 下 ， 使 用 8 个 并 行 任务 进行 分 组 ， 你 可 以 传 入 numTask 可 选 参 
数 ， 根 据 数据 量 设置 不 同 数 目的 Task 
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( 续 表 ) 
函数 描述 
Ri 在 一 个 (K，V) 对 的 数据 集 上 使 用 ， 返 回 一 个 (K，V) 对 的 数据 集 ，key 相同 的 
让 pi De 值 ， 都 被 使 用 指定 的 reduce 函数 聚合 到 一 起 。 和 groupbykey 类 似 ， 任 务 的 个 数 
ji 是 可 以 通过 第 二 个 可 选 参数 来 配置 的 

join(otherDataset，[num “| 在 类 型 为 (K,V) 和 (K,W) 的 数据 集 上 调用 ， 返 回 一 个 (K,(V,W)) 对 ， 每 个 key 
Tasks]) 中 的 所 有 元 素 都 在 一 起 的 数据 集 
groupWith(otherDataset， | 在 类 型 为 (K,V) 和 “K,W) 的 数据 集 上 调用 ， 返 回 一 个 数据 集 ， 组 成 元 素 为 
[numTasks]) (K, Seq[V], Seq[W]) Tuples。 这 个 操作 在 其 他 框架 ， 称 为 CoGroup 

。 第 卡 尔 积 。 但 在 数据 集 T 和 U 上 调用 时 ， 返 回 一 个 (T，U) 对 的 数据 集 ， 所 有 
cartesian(otherDataset) 元 素 交 互 进行 笛 卡 尔 积 
fiatMaptfuna) 类 似 于 map， 但 是 每 一 个 输入 元 素 ， 会 被 映射 为 0 到 多 个 输出 元 素 因此，func 

用 函数 的 返回 值 是 一 个 Seq， 而 不 是 单一 元 素 ) 














RDD 内 部 的 设计 ， 每 个 RDD 都 需要 包含 以 下 4 个 部 分 : 


(1) 源 数据 分 割 后 的 数据 块 ， 源 代码 中 的 splits 变量 。 

(2) 关于 “血统 ”的 信息 ， 源 码 中 的 dependencies 变量 。 

(3) 一 个 计算 函数 (该 RDD 如 何 通过 父 RDD 计算 得 到 ) ， 源 码 中 的 iterator(split) 和 
compute 函数 。 

(4) 一 些 关 于 如 何 分 块 和 数据 存放 位 置 的 元 信息 ， 如 源码 中 的 partitioner 和 
preferredLocations。 例 如 : 一 个 从 分 布 式 文件 系统 中 的 文件 得 到 的 RDD 具有 的 数据 块 是 通过 
切 分 各 个 文件 得 到 的 ， 它 是 没有 父 RDD 的 ， 它 的 计算 函数 只 是 读 取 文 件 的 每 一 行 并 作为 一 
个 元 素 返 回 给 RDD。 

对 于 一 个 通过 map 函数 得 到 的 RDD， 它 会 具有 和 父 RDD 相同 的 数据 块 ， 它 的 计算 函数 
是 对 每 个 父 RDD 中 的 元 素 所 执行 的 一 个 函数 。 

RDD 根据 useDisk、useMemory、deserialized、replication 4 个 参数 的 组 合 提供 了 11 种 存 
储 级 别 : 


(1) val NONE = new StorageLevel(false, false, false) 

(2) val DISK_ONLY = new StorageLevel(true, false, false) 

(3) val DISK_ONLY 2 = new StorageLevel(true, false, false, 2) 

(4) val MEMORY ONLY = new StorageLevel(false, true, true) 

(5) val MEMORY ONLY 2= new StorageLevel(false, true, true, 2) 

(6) val MEMORY ONLY _ SER = new StorageLevel(false, true, false) 

(7) val MEMORY ONLY _ SER 2 = new StorageLevel(false, true, false, 2) 
(8) val MEMORY AND DISK = new StorageLevel(true, true, true) 

(9) val MEMORY AND DISK 2= new StorageLevel(true, true, true, 2) 
(10) val MEMORY AND DISK SER = new StorageLevel(true, true, false) 
(11) val MEMORY AND DISK SER 2=new StorageLevel(true, true, false, 2) 
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4.2.4 Shark (Hive on Spark 大 型 的 数据 仓库 系统 ) 

Shark 是 UC Berkeley AMPLAB 开源 的 一 款 数据 仓库 产品 ， 它 完全 兼容 Hive 的 HQL 语 
法 ， 但 与 Hive 不 同 的 是 ，Hive 的 计算 框架 采用 Map-Reduce， 而 Shark 采用 Spark。 所 以 ， 
Hive 是 SQL on Map-Reduce， 而 Shark 是 Hive on Spark。 其 架构 如 图 4-5 所 示 。 





Command-line shell ThrifJDBC 











Driver 


Meta 
store 


SerDesUDFs 

















Hadoop Storage(e.g. HDFS,HBase) 











4-5 Shark 架构 
为 了 最 大 限度 地 保持 与 Hive 的 兼容 性 ，Shark 复 用 了 Hive 的 大 部 分 组 件 ， 如 下 所 示 : 


(1) SQL Parser & Plan generation: Shark 完全 兼容 Hive 的 HQL 语法 ， 而 且 Shark 使 用 
了 Hive 的 API 来 实现 query Parsing 和 query Plan generation， 仅 仅 最 后 的 Physical Plan 
execution 阶段 用 Spark 代替 Hadoop Map-Reduce。 

(2) Metastore: Shark 采用 和 Hive 一 样 的 meta 信息 ，Hive 里 创建 的 表 用 Shark 可 无 颖 
访问 。 

(3) SerDe: Shark 的 序列 化 机 制 以 及 数据 类 型 与 Hive 完全 一 致 。 

(4) UDF: Shark 可 重用 Hive 里 的 所 有 UDF。 通 过 配置 Shark 参数 ，Shark 可 以 自动 在 
内 存 中 缓存 特定 的 RDD， 实 现 数据 重用 ， 进 而 加 快 特定 数据 集 的 检索 。 同 时 ，Shark 通过 
UDF 用 户 自 定义 函数 实现 特定 的 数据 分 析 学 习 算 法 ， 使 得 SQL 数据 查询 和 运算 分 析 能 结合 
在 一 起 ， 最 大 化 RDD 的 重复 使 用 。 

(5) Driver: Shark 在 Hive 的 CliDriver 基础 上 进行 了 一 个 封装 ， 生 成 一 个 
SharkCliDriver， 这 是 shark 命令 的 入 口 。 

(6) ThriftServer: Shark 在 Hive 的 ThriftServer (支持 JDBC/ODBC) 基础 上 ， 做 了 一 个 
封装 ， 生 成 了 一 个 SharkServer， 也 提供 JDBC/ODBC 服务 。 


Shark 即 Hive on Spark， 本 质 上 是 通过 Hive 的 HQL 解析 ， 把 HQL 翻译 成 Spark 上 的 
RDD 操作 ， 然 后 通过 Hive 的 metadata 获取 数据 库 里 的 表 信息 ， 实 际 HDFS 上 的 数据 和 文 
件 ， 会 由 Shark 获取 并 放 到 Spark 上 运算 。Shark 的 特点 就 是 快 ， 完 全 兼容 Hive， 且 可 以 在 
shell 模式 下 使 用 rdd2sql0 这 样 的 API， 把 HQL 得 到 的 结果 集 ， 继 续 在 Scala 环境 下 运算 ， 支 
持 自 己 编写 简单 的 机 器 学 习 或 简单 的 分 析 处 理 函 数 ， 以 对 HQL 结果 进一步 分 析 计 算 。 
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4.3 Spark 配置 


Spark 主要 提供 三 种 位 置 配置 系统 : 


(1) 环境 变量 : 用 来 启动 Spark workers， 可 以 设置 在 你 的 驱动 程序 或 者 conf/spark- 
env.sh 脚本 中 。 
(2) Java 系统 性 能 : 可 以 控制 内 部 的 配置 参数 ， 有 两 种 设置 方法 : 


编程 的 方式 (程序 中 在 创建 SparkContext 之 前 ， 使 用 System.setProperty (“xx”， 
“Xxx”) 语句 设置 相应 系统 属性 值 ) 。 
在 conf/spark-env.sh 中 配置 环境 变量 SPARK_JAVA_OPTS.。 


(3) 日 志 配 置 通过 log4j.properties 实现 。 


4.3.1 


环境 变量 


Spark 安装 目录 下 的 conf/spark-env.sh 脚本 决定 了 如 何 初 始 化 Worker Nodes 的 JVM， 甚 
至 决定 了 你 在 本 地 如 何 运行 spark-shell。 在 Git 库 中 这 个 脚本 默认 是 不 存在 的 ， 但 是 你 可 以 自 
己 创 建 它 并 通过 复制 con/spark-env.sh.template 中 的 内 容 来 配置 ， 最 后 要 确保 你 创建 的 文件 可 


执行 。 


在 spark-env.sh 中 你 至 少 有 两 个 变量 要 设置 : 

(1) SCALA_HOM: 指向 你 的 Scala 安装 路 径 ; 或 者 是 SCALA_LIBRARY_PATH 指向 
Scala library JARS 所 在 的 目录 。 如 果 你 是 通过 DEB 或 者 RPM 安装 的 Scala， 他 们 是 没有 
SCALA_HOME 的 ， 但 是 他 们 的 libraries 是 分 离 的 ， 默 认 在 /usrshareliava 中 查找 scala- 
library.jar。 

(2) MESOS_NATIVE_LIBRAR: 如 果 你 要 在 Mesos 上 运行 集群 的 话 ， 必 须 设置 它 。 

另外 ， 还 有 其 他 4 个 变量 来 控制 执行 。 应 该 将 他 们 设置 在 启动 驱动 程序 的 环境 中 ， 以 取 
代 设 置 在 spark-env.sh 文件 中 ， 因 为 这 些 设 置 可 以 自动 传递 给 Workers。 将 他 们 设置 在 每 个 作 
业 中 而 不 是 spark-env.sh 中 ， 这 样 确保 了 每 个 作业 有 他 们 自己 的 配置 。 


SPARK JAVA_ORTS: 添加 JVM 选项 。 可 以 通过 -D 来 获取 任何 系统 属性 。 
SPARK_CLASS_PATH: 添加 元 素 到 Spark 的 classpth 中 。 
SPARK_LIBARAT_OATH: 添加 本 地 libraries 的 查找 目录 。 

SPARK_MEM: 设置 每 个 节点 所 能 使 用 的 内 存 总 量 。 他 们 应 该 和 JVM's -Xmx 选项 
的 格式 保持 一 致 ( e.g.300m 或 lg) 。 注 意 : 这 个 选项 将 很 快 被 齐 用 ， 转 而 支持 系统 
属性 spark.executor.memory， 所 以 我 们 不 推荐 将 它 使 用 在 新 代码 中 。 


如 果 将 他 们 设置 在 spark-env.sh 中 ， 他 们 将 覆盖 用 户 程序 设 定 的 值 ， 这 是 不 可 取 的 。 如 果 
环境 允许 ， 你 可 以 选择 在 spark-env.sh 中 设置 他 们 ， 仅 当 用 户 程序 没有 做 任何 设置 时 ， 例 如 : 


if [ -z "$SPARK JAVA OPTS" ] ; then 
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SPARK_JAVA OPTS="-verbose:gc" 
£i 


ee 系统 属性 
过 设置 系统 属性 来 配置 Spark， 你 必须 通过 以 下 两 种 方式 中 的 任意 一 个 来 达到 目的 : 


@ 在 JVM 中 通过 -D 标志 ( 例如 : java -Dspark.cores.max=5 MyProgram ) 。 
@ 在 你 的 程序 中 创建 SparkContext 之 前 调用 System.setProperty， 如 下 所 示 : 


System. setProperty("SPark.cores .max"，"5") 
val sc = new SparkContext(...) 


更 多 可 配置 的 控制 内 部 设置 的 系统 属性 已 经 有 了 合理 的 默认 属性 值 。 然 而 ， 有 5 个 属性 
通常 是 你 想 要 去 控制 的 ， 如 表 4-5 所 示 。 


表 4-5 控制 内 部 设置 的 系统 属性 (1) 
属性 名 称 
a 每 个 处 理 器 可 以 使 用 的 内 存 大 小 ， 跟 JVM 的 内 存 表示 的 字 
符 串 格式 是 一 样 的 ， 比 如 : '512m'，'?2g' 

一 个 类 名 ， 用 于 序列 化 网 络 传输 或 者 以 序列 化 形式 缓存 起 
来 的 各 种 对 象 。 默 认 情 况 下 Java 的 序列 化 机 制 可 以 序列 化 
spark.serializer eT 任何 实现 了 Serializable 接口 的 对 象 ， 但 是 速度 是 很 慢 的 ， 

- 因此 当 你 在 意 运 行 速 度 的 时 候 我 们 建议 你 使 用 
spark.KryoSerializer 并 且 配 置 Kryo serialization。 可 以 是 任 
何 spark.Serializer 的 子 类 
如 果 你 使 用 的 是 Kryo 序列 化 ， 就 要 为 Kryo 设置 这 个 类 去 
注册 你 自 定 义 的 类 。 这 个 类 需要 继承 
spark.KryoRegistrator。 可 以 参考 调 优 指南 获取 更 多 的 信息 
设置 Spark 的 暂 存 目录 ， 包 括 映射 输出 文件 盒 需要 存储 在 
磁盘 上 的 RDDs。 这 个 磁盘 目录 在 你 的 系统 上 面 访问 速度 
越 快 越 好 。 可 以 用 去 号 隔 开 来 设置 多 个 目录 
当 运 行 在 一 个 独立 部 署 集 群 上 或 者 是 一 个 粗 粒度 共享 模式 
Spark.cores.max (infinite) 的 Mesos 集群 上 的 时 候 ， 最 多 可 以 请 求 多 少 个 CPU 核心 。 
默认 是 所 有 的 都 能 用 


除了 表 4-5 这 些 属性 ， 在 某 些 情况 下 表 4-6 所 示 的 属性 可 能 也 是 需要 设置 的 。 


Spark.kryo.registrator 


spark.local.dir 











表 4-6 控制 内 部 设置 的 系统 属性 (2) 









如 果 设 置 为 了 “true”， 将 以 粗 粒度 共享 模式 运行 在 Mesos 集群 上 ， 这 
时 候 Spark 会 在 每 台 机 器 上 面 获 得 一 个 长 期 运行 的 Mesos 任务 ， 而 不 是 
对 每 个 Spark 任务 都 要 产生 一 个 Mesos 任务 。 对 于 很 多 短 查询 ， 这 个 可 
能 会 有 些许 的 延迟 ， 但 是 会 大 大 提高 Spark 工作 时 的 资源 利用 率 


在 用 户 没 有 指定 时 ， 用 于 分 布 式 随 机 操作 (groupByKey、reduceByKey 
等 ) 的 默认 的 任务 数 


Spark.mesos.coarse 





spark.default.parallelism |8 
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( 续 表 ) 


属性 名 忆 4 


Spark 用 于 缓存 的 内 存 大 小 所 占用 的 Java 堆 的 比率 。 这 个 不 应 该 大 于 
JVM 中 老年 代 所 分 配 的 内 存 大 小 ， 默 认 情 况 下 老年 代 大 小 是 堆 大 小 的 
23， 但 是 你 可 以 通过 配置 你 的 老年 代 的 大 小 ， 然 后 再 去 增加 这 个 比率 







spark.storage.memory 


























Fraction 

et i 你 的 应 用 各 控制 板 端口 号 控制 面板 中 可 以 显示 每 个 RDD 的 内 存 
parle 是 否 压缩 映射 输出 文件 ， 通 常设 置 为 true 是 个 不 错 的 选择 

mek becom 广播 变量 在 发 送 之 前 是 否 先 要 被 压缩 ， 通 常设 置 为 tue 是 个 不 错 的 选择 


compress 


是 否 要 压缩 序列 化 的 RDD 分 区 (比如 ， 
StorageLevel.MEMORY_ONLY_SER)〉。 在 消耗 一 点 额外 的 CPU 时 间 的 
代价 下 ， 可 以 极 大 地 减少 空间 的 使 用 

同时 获取 每 一 个 分 解 任务 的 时 候 ， 映 射 输出 文件 的 最 大 的 尺寸 (以 兆 为 


spark.rdd.compress 
单位 ) 。 由 于 对 每 个 输出 都 需要 我 们 去 创建 一 个 缓冲 区 去 接受 它 ， 这 个 
属性 值 代表 了 对 每 个 分 解 任 务 所 使 用 的 内 存 的 一 个 上 限 值 ， 因 此 除非 你 


spark.reducer.maxMbIn 
Flight 
机 器 内 存 很 大 ， 最 好 还 是 配置 一 下 这 个 值 


spark.closure.serializer spark.Java | 用 于 闭 包 的 序列 化 类 。 通 常 Java 是 可 以 胜任 的 ， 除 非 在 你 的 驱动 程序 中 
Serializer | 分布 式 函数 〈 比 如 map 函数 ) 引用 了 大 量 的 对 象 


Kryo 中 运行 的 对 象 的 最 大 尺寸 (Kryo 库 需 要 创建 一 个 不 小 于 最 大 的 单 
个 序列 化 对 象 的 缓存 区 ) 。 如 果 在 Kryo 中 出 现 “buffer limit exceeded” 
异常 ， 你 就 需要 去 增加 这 个 值 了 。 注 意 ， 对 每 个 Worker 而 言 ， 一 个 核心 
就 会 有 一 个 缓冲 


og rh 使 用 哪 一 个 广播 实现 


Broadcast 




















spark.kryoserializer. 
buffer.mb 


spark.broadcast.factory 





在 发 布 一 个 本 地 数据 任务 的 时 候 ， 放 弃 并 发 布 到 一 个 非 本 地 数据 的 地 方 
前 ， 需 要 等 待 的 时 间 。 如 果 你 的 很 多 任务 都 是 长 时 间 运 行 的 任务 ， 并 且 
看 到 了 很 多 的 脏 数据 的 话 ， 你 就 该 增加 这 个 值 了 。 但 是 一 般 情况 下 默认 
值 就 可 以 很 好 地 工作 了 


如 果 超 过 这 个 时 间 ， 独 立 部 署 Master 还 没有 收 到 Worker 的 心跳 回复 ， 
那么 就 认为 这 个 Worker 已 经 丢失 了 


在 控制 面板 通信 《〈 序 列 化 任务 和 任务 结果 ) 的 时 候 消息 尺寸 的 最 大 值 ， 


Spark.locality.wait 


spark.worker.timeout 








spark.akka.frameSize 单位 是 MB。 如 果 你 需要 给 驱动 器 发 回 大 尺寸 的 结果 比如 使 用 在 一 个 
大 的 数据 集 上 面 使 用 collect0 方 法 ) ， 那 么 你 就 该 增加 这 个 值 了 
用 于 通信 的 actor 线程 数量 。 如 果 驱 动 器 有 很 多 CPU 核心 ， 那 么 在 大 集 
spark.akka.threads 


群 上 可 以 增 大 这 个 值 
Spark 节点 之 间 通 信 的 超时 时 间 ， 以 秒 为 单位 





spark.akka.timeout 





spark.driver.host 驱动 器 监听 主机 名 或 者 IP 地 址 





spark.driver.port (random) | 驱动 器 监听 端口 号 
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( 续 表 ) 
属性 名 默认 值 


Spark 记忆 任何 元 数据 续 表 (stages 生成 、 任 务 生成 等 ) 的 时 间 〈 秒 ) 。 


E jisable》 | 周期 性 清除 保证 在 这 个 时 间 之 前 的 元 数据 会 被 遗忘。 当 长 时 间 几 小 时 、 
ele (disable) | 几 天 地 运行 Spark 的 时 候 设置 这 个 是 很 有 用 的 。 注 意 ， 任 何 内 存 中 的 
RDD 只 要 过 了 这 个 时 间 就 会 被 清除 掉 





人 从 网 络 中 批量 接受 对 象 时 的 持续 时 间 


JInterval 


| spark.task.maxFailures |4 task 失败 重 试 次 数 | 











4.3.3 ”配置 日 志 
Spark 使 用 log4j 来 记录 。 你 可 以 在 conf 目录 中 添加 log4j.properties 文件 来 配置 。 一 种 方 
法 是 复制 本 地 已 存在 的 log4j.properties.template。 


4.3.4 ”Spark 硬件 配置 
针对 Spark 部 署 和 开发 的 一 个 共同 的 问题 是 如 何 配置 硬件 ， 而 正确 的 硬件 将 取决 于 环 
境 。 


1. 存储 系统 


Spark 任务 需要 从 一 些 外 部 的 存储 系统 加 载 数据 〈 如 : HDFS 或 者 HBase) ， 重 要 的 是 
存储 系统 要 接近 Spark 系统 : 


(1) 如果 可 能 ， 运 行 Spark 在 相同 的 HDFS 节点 ， 最 简单 的 方法 是 建立 一 个 引发 相同 的 
节点 上 的 集群 独立 模式 〈 http://spark.apache.org/docs/latest/spark-standalone.html ) ， 配置 
Spark 的 Configure 和 Hadoop 的 内 存 、CPU 使 用 避免 干扰 (对 于 Hadoop) ， 或 者 你 能 够 运行 
Hadoop 和 Spark 在 一 个 相同 的 cluster manager， 像 Mesos、Hadoop YARN。 

(2) 如 果 可 能 ， 运 行 Spark 在 不 同 的 节点 上 ， 需 要 使 用 相同 局 域 网 内 部 的 HDFS 节点 。 

(3) 对 于 低 延 迟 数据 存储 如 同 HBase， 使 用 不 同 的 节点 上 的 数据 比 使 用 本 地 存储 系统 数 
据 干扰 更 小 (但 是 HBase 存储 比 本 地 存储 在 避免 干扰 性 方面 表现 得 更 好 ) 。 


2. 本 地 硬盘 


虽然 Spark 能 够 在 内 存 中 执行 大 量 的 计算 ， 它 仍然 需要 本 地 硬盘 作为 数据 的 存储 ， 不 适 
合 把 数据 存储 在 RAM 中 ， 以 及 保护 中 间 的 输出 阶段 ， 我 们 推荐 每 个 节点 有 4~8 个 硬盘 。 如 
果 没 有 配置 RAID 〈 就 如 同 不 同 的 挂 载 点 ) ， 那 就 需要 在 Linux 中 挂 载 硬盘 使 用 noatime 
option (http://www.centos.org/docs/S/html/Global_ File_System/s2-manage-mountnoatime.html ) 
以 减少 不 必要 的 写 操 作 。 在 Spark 里 面 ， 配 置 spark.local.dir 变量 以 一 个 “，” 号 隔 开 
(http://spark.apache.org/docs/latest/config-uration.html ) ， 如 果 你 正在 运行 着 HDFS， 它 正好 
和 HDFS 放 在 一 个 相同 的 硬盘 上 。 
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3. 内 存 


- 般 而 言 ，Spark 能 够 运行 在 任意 的 8GB~ 几 百 GB 内 存 的 机 器 上 ， 所 有 情况 下， 推荐 最 

多 给 Spark 配置 75% 的 内 存 容量 ， 其 他 的 容量 供 系统 和 buffer 缓存 使 用 。 

内 存 需 要 多 大 是 依靠 Application 决定 的 ， 确 定 应 用 使 用 多 少 内 存 特 定 大 小 ， 需 要 加 载 一 
部 分 特定 的 数据 到 Spark RDD 并 使 用 UI 的 存储 选项 卡 (http://<driver-node>:4040) 观测 内 存 
使 用 量 。 注 意 ， 内 存 使 用 量 大 大 影响 存储 水 平和 序列 化 格式 ， 可 以 通过 这 个 地 址 查看 优化 方 
法 (http://spark.apache.org/docs/latest/tuning.html ) 。 

最 后 ， 注 意 Java VM 在 超过 200 GB 的 RAM 上 并 不 总 是 表现 良好 。 如 果 这 样 的 RAM 机 
器 ， 可 以 在 上 面 多 跑 几 个 Worker， 在 Spark 的 独立 模式 中 ， 能 够 在 每 个 节点 上 设置 多 个 
Workers ， 设 置 conf/spark-env.sh 中 的 SPARK_WORKER INSTANCES 变量 ， 并 且 设 
置 SPARK_WORKER_CORES 的 核 数 。 


4. 网 络 

根据 经 验 ， 当 数据 在 内 存 中 ， 使 用 万 兆 网 卡 程序 将 运行 得 更 快 ， 特 别 是 “distributed 
reduce application” 当 中 ， 使 用 了 group-bys、reduce-bys 和 SQL 的 join 的 操作 的 时 候 。 在 一 
个 任何 给 定 的 application 中 ， 你 能 够 通过 UI 查看 Spark 的 shuffles 的 过 程 及 多 大 的 数据 执行 
shuffles 。 


5. CPU 核 数 


Spark 每 个 集群 要 启动 成 千 上 万 的 线程 ， 每 个 集群 的 核 数 至 少 是 8~16 核 。 工 作 负载 是 
依靠 CPU ， 所 以 需要 更 多 的 CPU 处 理 能 力 ， 一 旦 数据 放 在 内 存 中 ， 运 行 更 多 的 应 用 取决 于 
CPU 或 者 带宽 。 


4 .A spark 模式 部 署 概 述 


本 节 简 单 介 绍 一 下 Spark 如 何在 集群 上 运行 ， 以 使 读者 更 易 理解 其 中 的 组 件 。 

1. 组 件 

Spark 应 用 在 集群 上 以 独立 的 进程 集合 运行 ， 在 你 的 主 程序 ( 称 作 驱动 程序 中 以 
SparkContext 对 象 来 调节 。 特 别 地 ， 为 了 在 集群 上 运行 ，SparkContext 可 以 与 几 个 类 型 的 集群 
管理 器 (Spark 自身 单独 的 集群 管理 器 或 者 Mesos/YARN) 相连 接 ， 这 些 集群 管理 器 可 以 在 应 
用 间 分 配 资源 。 一 旦 连接 ，Spark 需要 在 集群 上 的 线程 池子 节点 ， 也 就 是 那些 执行 计算 和 存 
储 应 用 数据 的 工作 进程 。 然 后 ， 它 将 把 你 的 应 用 代码 (以 JAR 或 者 Python 定义 的 文件 并 传 
送 到 SparkContext) 发 送 到 线程 池 。 最 后 ，SparkContext 发 送 任 务 让 线程 池 运 行 ， 如 图 4-6 所 
示 。 
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Cluster Manager 











图 4-6 ”Spark 集群 进程 

关于 这 个 架构 有 几 个 有 用 的 地 方 需要 注意 : 

(1) 各 个 应 用 有 自己 的 线程 池 进程 ， 会 在 整个 应 用 的 运行 过 程 中 保持 并 在 多 个 线程 中 运 
行 任务 。 这 样 做 的 好 处 是 把 应 用 相互 孤立 ， 既 在 调度 方面 〈 各 个 驱动 调度 它 自己 的 任务 ) 也 
在 执行 方面 〈 不 同 应 用 的 任务 在 不 同 的 JVM 上 运行 )。 然 而 ， 这 也 意味 着 着 不 把 数据 写 到 额 
外 的 存储 系统 的 话 ， 数 据 就 无 法 在 不 同 的 Spark 应 用 间 (SparkContext 的 实例 ) 共享 。 

(2) 对 于 潜在 的 集群 管理 器 来 说 ，Spark 是 不 可 知 的 。 只 要 它 需 要 线程 池 的 进程 和 它们 
间 的 通信 ， 那 么 即使 是 在 支持 其 他 应 用 的 集群 管理 器 (例如 ，Mesos/YARN) 上 运行 也 相对 
简单 。 

(3) 因为 在 集群 上 驱动 调度 任务 ， 它 应 该 运行 最 接近 的 工作 节点 ， 在 相同 的 局 域 网 内 更 
好 。 如 果 你 想 对 远程 的 集群 发 送 请 求 ， 较 好 的 选择 是 为 驱动 打开 一 个 RPC， 让 它 就 近 提 交 操 
作 ， 而 不 是 运行 离 工 作 节点 很 远 的 驱动 。 


2. 集群 管理 类 型 
系统 目前 支持 3 种 集群 管理 : 


@ 单 例 模式 : 一 种 简单 的 集群 管理 ， 其 包括 一 个 很 容易 搭建 集群 的 Spark。 
@ ”Apache Mesos 模式 : 一 种 通用 的 集群 管理 ， 可 以 运行 Hadoop MapReduce 和 服务 应 
用 的 模式 。 
@ Hadoop YARN 模式 : Hadoop2.0 中 的 资源 管理 模式 。 
其 实 ， 在 Amazon EC2 (亚马逊 弹性 计算 云 ) 中 Spark 的 EC2 启动 脚本 可 以 很 容易 地 启 
动 单 例 模式 。 
3. 给 集群 发 布 代码 


给 集群 发 布 代码 的 一 种 推荐 的 方式 是 通过 SparkContext 的 构造 器 ， 这 个 构造 器 可 以 给 工 
作 节 点 生成 〈Java/Scala) JAR 文件 列表 或 者 (Python) .egg 文件 和 .zip 包 文 件 。 你 也 可 以 执 
行 SparkContext.addJar 和 addFile 来 动态 地 创建 发 送 文件 。 


4. 监控 器 


每 个 驱动 程序 有 一 个 Web UI， 典 型 的 是 在 4040 端口 ， 你 可 以 看 到 有 关 运 行 的 任务 、 程 
序 和 存储 空间 大 小 等 信息 。 你 可 以 在 浏览 器 中 输入 简单 的 URL 方式 来 访问 Web UI (http://< 
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驱动 节点 >:4040) 。 监 控 器 也 可 以 指导 描述 其 他 监控 器 信息 。 


5. 调度 


Spark 可 以 通过 在 应 用 外 【集群 管理 水 平 ) 和 应 用 内 〈 如 果 在 同一 个 SparkContext 中 有 
多 个 计算 指令 ) 进行 资源 分 配 。 








6. 术语 表 
Spark 集群 术语 如 表 4-7 所 示 。 
表 4-7 Spark 集群 术语 
术语 意思 
Application 在 Spark 上 构建 用 户 程序 ， 由 驱动 程序 在 集群 上 执行 
Drive program 运行 man 函数 的 进程 ， 同 时 也 创建 SparkContex 
Cluster manager 获取 集群 上 资源 的 扩展 服务 〈 例 如 : 单 例 模式 管理 员 、Mesos、YARN) 
Workenode 在 集群 中 可 以 运行 应 用 的 任何 节点 
Executor 在 工作 员 节 点 中 为 应 用 所 启动 的 一 个 进程 ， 以 便 运 行 任务 以 及 可 以 在 内 存 或 是 硬盘 
中 保存 数据 。 每 一 个 应 用 都 拥有 自己 的 执行 者 
Task 一 个 可 以 给 执行 者 发 送 数据 的 工作 单元 
Job 一 个 由 从 Spark 动作 中 获得 回应 的 多 任务 组 成 的 并 行 计算 〈 例 如 : 保存 、 收 集 ) ， 
你 可 以 在 驱动 日 志 中 看 到 这 个 术语 
Stage 每 个 工作 被 分 为 很 多 小 的 任务 集合 互 称 为 阶段 (与 MapReduce 中 的 map 和 reduce 
阶段 相似 ) ， 你 可 以 在 驱动 日 志 中 看 到 这 个 术语 











4.5 Spark Streaming 实时 计算 框架 


随 着 大 数据 的 发 展 ， 人 们 对 大 数据 的 处 理 要 求 也 越 来 越 高 ， 原 有 的 批 处 理 框 架 
MapReduce 适合 离线 计算 ， 却 无 法 满足 实时 性 要 求 较 高 的 业务 ， 如 实时 推荐 、 用 户 行为 分 析 
等 由 。 Spark Streaming 是 建立 在 Spark 上 的 实时 计算 框架 ， 通 过 它 提供 的 丰富 的 API、 基 于 
内 存 的 高 速 执行 引擎 ， 用 户 可 以 结合 流 式 、 批 处 理 和 交互 试 查询 应 用 。 本 节 将 介绍 Spark 
Streaming 实时 计算 框架 的 原理 、 特 点 与 适用 场景 只 45。 

Spark 是 一 个 类 似 于 MapReduce 的 分 布 式 计算 框架 ， 其 核心 是 弹性 分 布 式 数据 集 ， 它 提 
供 了 比 MapReduce 更 丰富 的 模型 ， 可 以 在 快速 内 存 中 对 数据 集 进 行 多 次 迭代 ， 以 支持 复杂 的 
数据 挖掘 算法 和 图 形 计 算 算 法 B649。Spark Streaming 是 一 种 构建 在 Spark 上 的 实时 计算 框 
架 ， 它 扩展 了 Spark 处 理 大 规模 流 式 数据 的 能 

Spark Streaming 的 优势 在 于 : 

@ ”能 运行 在 100+ 的 节点 上 ， 并 达到 秒 级 延迟 。 

@ ”使 用 基于 内 存 的 Spark 作为 执行 引擎 ， 有 具有 高 效 和 容错 的 特性 。 

@ 能 集成 Spark 的 批 处 理 和 交互 查询 。 

@ ”为 实现 复杂 的 算法 提供 与 批 处 理 类 似 的 简单 接口 。 





第 4 章 Spark 大 数据 处 理 基 础 


Spark Streaming 的 基本 原理 是 将 输入 数据 流 以 时 间 片 〈 秒 级 ) 为 单位 进行 拆 分 ， 然 后 以 
类 似 批 处 理 的 方式 处 理 每 个 时 间 片 数据 ， 其 基本 原理 如 图 4-7 所 示 。 首 先 ，Spark Streaming 
把 实时 输入 数据 流 以 时 间 片 At (如 1 秒 ) 为 单位 切 分 成 块 。Spark Streaming 会 把 每 块 数据 
作为 一 个 RDD， 并 使 用 RDD 操作 处 理 每 一 小 块 数据 。 每 个 块 都 会 生成 一 个 Spark Job 处 理 ， 
最 终结 果 也 返回 多 块 。 
[anu] 
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4-7 Spark Streaming 基本 原理 


下 面 介绍 Spark Streaming 内 部 实现 原理 。 使 用 Spark Streaming 编写 的 程序 与 编写 Spark 
程序 非常 相似 ， 在 Spark 程序 中 ， 主 要 通过 操作 RDD (Resilient Distributed Datasets， 弹 性 分 
布 式 数据 集 ) 提供 的 接口 (如 map、reduce、filter 等 ) 实现 数据 的 批 处 理 ， 而 在 Spark 
Streaming 中 ， 则 通过 操作 DStream (表示 数据 流 的 RDD 序列 ) 提供 的 接口 实现 数据 的 批 处 
理 ， 这 些 接 口 和 RDD 提供 的 接口 类 似 。 图 4-8 展示 了 由 Spark Streaming 程序 到 Spark jobs 的 
转换 图 。 





























































































































Spark streaming program Dstream Graph RDD Graph 
Vartl=new TTLogInputDStream(...) Tn Ll 有 和 
Var t2=new TTLogInputDStream(..) in 
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图 4-8 ”Spark Streaming 程序 到 Spark jobs 的 转换 图 
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在 图 4-8 中 ，Spark Streaming 把 程序 中 对 DStream 的 操作 转换 为 DStream Graph， 图 中 对 
于 每 个 时 间 片 ，DStream Graph 都 会 产生 一 个 RDD Graph; 针对 每 个 输出 操作 (如 print、 
foreach 等 ) ，Spark Streaming 都 会 创建 一 个 Spark action; 对 于 每 个 Spark action ，Spark 
Streaming 都 会 产生 一 个 相应 的 Spark job， 并 交 给 JobManager。JobManager 中 维护 着 一 个 
Jobs 队列 ，Spark job 存储 在 这 个 队列 中 ，JobManager 把 Spark job 提交 给 Spark Scheduler， 
Spark Scheduler 负责 调度 Task 到 相应 的 Spark Executor 上 执行 。 

基于 云梯 Spark on Yarn 的 Spark Streaming 总 体 架 构 如 图 4-9 所 示 。Spark on Yarn 启动 
后 ， 由 Spark AppMaster 把 Receiver 作为 一 个 Task 提交 给 某 一 个 Spark Executor; Receive 启 
动 后 输入 数据 ， 生 成 数据 块 ， 然 后 通知 Spark AppMaster; Spark AppMaster 会 根据 数据 块 生 
成 相应 的 Job， 并 把 Job 的 Task 提交 给 空闲 Spark Executor 执行 。 图 中 粗 箭头 显示 被 处 理 的 
数据 流 ， 输 入 数据 流 可 以 是 磁盘 、 网 络 和 HDFS 等 ， 输 出 可 以 是 HDFS、 数 据 库 等 。 









Ge app submit 
resource request 


fart appMaster art /Setartcontsiner 


Data Received 
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执行 
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SaveAsHadoopFiles 











HDFS 








图 4-9 基于 云梯 Spark on Yarn 的 Spark Streaming 总 体 架构 


Spark Streaming 的 另 一 大 优势 在 于 其 容错 性 ，RDD 会 记 住 创建 自己 的 操作 ， 每 一 批 输入 
数据 都 会 在 内 存 中 备份 ， 如 果 由 于 某 个 结 点 故障 导致 该 结 点 上 的 数据 丢失 ， 这 时 可 以 通过 备 
份 的 数据 在 其 他 结 点 上 重 算得 到 最 终 的 结果 。 
正如 Spark Streaming 最 初 的 目标 一 样 ， 它 通过 丰富 的 API 和 基于 内 存 的 高 速 计算 引擎 让 
用 户 可 以 结合 流 式 处 理 、 批 处 理 和 交互 查询 等 应 用 。 因 此 ，Spark Streaming 适合 一 些 需要 历 
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史 数 据 和 实时 数据 结合 分 析 的 应 用 场合 。 当 然 ， 对 于 实时 性 要 求 不 是 特别 高 的 应 用 也 能 完全 
胜任 。 另外， 通过 RDD 的 数据 重用 机 制 可 以 得 到 更 高 效 的 容错 处 理 。 


A 器 ”spark SQL 查询 、DataFrames 分 布 式 
数据 集 和 Datasets API 


Spark SQL 是 Spark 中 处 理 结构 化 数据 的 模块 。 与 基础 的 Spark RDD API 不 同 ，Spark 
SQL 的 接口 提供 了 更 多 关于 数据 的 结构 信息 和 计算 任务 的 运行 时 信息 。 在 Spark 内 部 ，Spark 
SQL 能 够 用 于 优化 的 信息 比 RDD API 更 多 一 些 。Spark SQL 如 今 有 了 三 种 不 同 的 API: SQL 
语句 、DataFrame API 和 最 新 的 Dataset API。 不 过 真正 运行 计算 的 时 候 ， 无 论 你 使 用 哪 种 API 
或 语言 ，Spark SQL 使 用 的 执行 引擎 都 是 同一 个 。 这 种 底层 的 统一 ， 使 开发 者 可 以 在 不 同 的 
API 之 间 来 回 切换 ， 你 可 以 选择 一 种 最 自然 的 方式 来 表达 你 的 需求 中 50。 

本 节 中 所 有 的 示例 都 使 用 Spark 发 布 版 本 中 自 带 的 示例 数据 ， 并 且 可 以 在 spark-shell、 
pyspark shell 以 及 sparkR(R on Spark) shell 中 运行 。 





1. Spark SQL 查询 


Spark SQL 的 一 种 用 法 是 执行 SQL 查询 。Spark SQL 也 可 以 用 于 从 已 安装 的 Hive 中 读 取 
数据 。 更 多 的 关于 此 特性 的 配置 ， 请 参考 Hive Tables5* 剧 。 当 从 内 部 其 他 编程 语言 中 执行 
SQL，Spark SQL 结果 将 以 Dataset/DataFrame 形式 返回 。 你 也 可 以 通过 command-line 或 者 
JDBC/ODBC 与 SQL 接口 进行 交互 。 


2. DataFrames 分 布 式 数据 集合 


DataFrame 是 一 种 分 布 式 数据 集合 ， 每 一 条 数据 都 由 几 个 命名 字段 组 成 。 概 念 上 来 说 ， 
它 与 关系 型 数据 库 的 表 或 者 R 和 Python 中 的 data frame 等 价 ， 只 不 过 在 底层 ，DataFrame 采 
用 了 更 多 优化 。DataFrame 可 以 从 很 多 数据 源 〈sources) 中 加 载 数 据 并 构造 得 到 ， 如 : 结构 
化 数据 文件 、Hive 中 的 表 、 外 部 数据 库 ， 或 者 已 有 的 RDD。DataFrame API 支持 Scala、 
Java、Python 和 R。 


3. DatasetsAPI 


Dataset 是 分 布 式 数据 集合 。Dataset 是 Spark1.6 新 增 的 接口 ， 用 以 提供 RDDs〔 强 类 型 ， 
有 使 用 强大 的 lambda 函数 的 能 力 ) 和 Spark SQL 经 过 优化 后 的 执行 引擎 的 优点 。Dataset 可 
以 从 JVM 对 象 进行 构造 并 通过 转换 函数 (如 map、flatmap、filter 等 ) 进行 操作 。DatasetAPI 
支持 Scala 和 Java (http://spark.apache.org/docs/latest/api/java/index.html?org/apache/spark/sql/ 
Dataset.html) 。Python 不 支持 Dataset API， 但 因为 Python 本 身 的 动态 性 ，DatasetAPI 的 许多 
优点 都 已 经 可 用 〈 比 如， 你 可 以 通过 名 字 很 自然 地 访问 一 行 的 某 一 个 字段 ， 如 
row.columnName) ，R 的 情况 与 此 类 似 。 

DataFrame 是 Dataset 组 织 成 命名 列 的 形式 。 它 在 概念 上 相当 于 关系 型 数据 库 中 的 表 ， 或 
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者 R/Python 中 的 数据 帧 ， 但 是 在 底层 进行 了 更 多 的 优化 。DataFrames 可 以 从 多 种 数据 源 创 
建 ， 例 如 : 结构 化 数据 文件 、Hive 中 的 表 、 外 部 数据 库 或 者 已 存在 的 RDDs。DataFrame API 
支持 Scala、Java、Python 和 R。 在 Scala 和 Java 中 DataFrame 其 实 是 Dataset 的 RowS 的 形式 
的 表示 。 在 Scala API 中 ，DataFrame 仅仅 是 Dataset[Row] 的 别名 。 但 在 Java 中 ， 使 用 者 需要 
使 用 Dataset<Row> 来 表示 一 个 DataFrame。 


4.7 Spark 起 始点 


4.7.1 SparkSession 

在 Spark 中 所 有 功能 的 切入 点 是 SparkSession 类 。SparkSession 是 Spark2.0 开始 提供 的 ， 
内 建 了 对 Hive 特性 的 支持 ， 包 括 使 用 HiveQL 写 查 询 语句 、 调 用 Hive UDFs、 从 Hive 表 读 取 
数据 的 能 力 。 你 不 需要 事先 部 署 Hive 就 能 使 用 这 些 特性 。 

直接 使 用 SparkSession.builder() 就 可 以 创建 一 个 基本 的 SparkSession 。 


(1) Scala 





(2) Java 
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(3) Python 


(4) R 


在 Spark 仓库 “examples/src/main/scala/org/apache/spark/examples/sql/SparkSQLExample 
.scala” 中 可 以 找到 完整 的 代码 。 








4.7.2 SQLContext 
Spark SQL 所 有 的 功能 入 口 都 是 SQLContext 类 及 其 子 类 。 不 过 要 创建 一 个 SQLContext 
对 象 ， 首 先 需要 有 一 个 SparkContext 对 象 。 





除了 SQLContext 之 外 ， 你 也 可 以 创建 HiveContext，HiveContext 是 SQLContext 的 超 
集 。 除 了 SQLContext 的 功能 之 外 ，HiveContext 还 支持 完整 的 HiveQL 语法 、 使 用 UDF， 以 
及 对 Hive 表 中 数据 的 访问 。 要 使 用 HiveContext， 你 并 不 需要 安装 Hive， 而 且 SQLContext 
能 用 的 数据 源 ，HiveContext 也 一 样 能 用 。HiveContext 是 单独 打包 的 ， 从 而 避免 了 在 默认 的 
Spark 发 布 版 本 中 包含 所 有 的 Hive 依赖 。 如 果 这 些 依赖 对 你 来 说 不 是 问题 (不 会 造成 依赖 冲 
突 等 ) ， 建 议 你 在 Spark1.3 之 前 使 用 HiveContext。 而 后 续 的 Spark 版 本 ， 将 会 逐渐 把 
SQLContext 升级 到 和 HiveContext 功能 差不多 的 状态 。 

spark.sql.dialect 选项 可 以 指定 不 同 的 SQL 变种 (或 者 叫 SQL 方言 ) 。 这 个 参数 可 以 在 
SparkContext.setConf 里 指定 ， 也 可 以 通过 SQL 语句 的 SET key=value 命令 指定 。 对 于 
SQLContext， 该 配置 目前 唯一 的 可 选 值 就 是 “sql”， 这 个 变种 使 用 一 个 Spark SQL 自 带 的 简 
易 SQL 解析 器 。 而 对 于 HiveContext，spark.sql.dialect 默认 值 为 “hiveql”， 当 然 你 也 可 以 将 
其 值 设 回 “sqlj”。 仅 就 目前 而 言 ，HiveSQL 解析 器 支持 更 加 完整 的 SQL 语法 ， 所 以 大 部 分 
情况 下 ， 推 荐 使 用 HiveContext。 
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4.7.3 创建 DataFrame 


Spark 应 用 可 以 用 SparkContext 创建 DataFrame， 所 需 的 数据 来 源 可 以 是 已 有 的 RDD 
(existing RDD) ,或 者 Hive 表 ， 或 者 其 他 数据 源 (data sources) 。 下 面 的 示例 从 一 个 JSON 
文件 创建 一 个 DataFrame。 


(1) Scala 





(2) Java 





(3) Python 
Spark SQL 可 以 转换 RDD 的 行 对 象 到 DataFrame， 推 断 数据 类 型 。 行 是 通过 传递 键 / 值 对 
列表 参数 到 行 类 构造 的 。 这 个 列表 键 定义 表 列 的 名 称 和 按 整个 数据 库 采 样 推断 类 型 ， 类 似 的 
推论 ， 在 JSON 文件 执行 。 
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(4) R 





4.7.4 无 类 型 的 Dataset 操作 (aka DataFrame Operations) 

DataFrame 在 Scala、Java、Python 和 R 中 为 结构 化 数据 操作 提供 了 一 个 特定 领域 语言 支 
持 。 在 Spark2.0 中 ， 在 Scala 和 Java 的 API 中 ，DataFrame 仅仅 是 Dataset 的 RowS 表示 。 与 
Scala/Java 中 的 强 类 型 的 “ 带 类 型 转换 操作 ” 相 比 ， 这 些 操 作 也 可 以 看 作 “ 无 类 型 转换 操 
作 ”。 这 里 我 们 提供 了 一 些 使 用 Dataset 进行 结构 化 数据 处 理 的 基本 示例 。 


(1) Scala 
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(2) Java 





Spark 大 数据 处 理 基础 





云 计算 环境 下 Spark 大 数据 处 理 技术 与 实践 】 





Spark 大 数据 处 理 基础 





云 计算 环境 下 Spark 大 数据 处 理 技术 与 实践 _ 基 有 


这 里 我 们 给 出 一 个 结构 化 数据 处 理 的 基本 示例 : 
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除了 简单 的 字段 引用 和 表达 式 支持 之 外 ，DataFrame 还 提供 了 丰富 的 工具 函数 库 ， 包 括 
字符 串 组 装 、 日 期 处 理 、 常 见 的 数学 函数 等 。 这 些 函 数 库 的 完整 列表 参见 这 里 : DataFrame 


Function Reference (http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql. 
functions$) 。 


4.7.5 ”编程 执行 SQL 查询 语句 

Sparksession 中 的 SQL 函数 使 得 应 用 可 以 编程 式 执行 SQL 查询 语句 ， 并 且 以 DataFrame 
形式 返回 。 

1. Scala 


2. Java 
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3. Python 





4.7.6 创建 Dataset 


Dataset 与 RDD 很 像 ， 不 同 的 是 它 并 不 使 用 Java 序列 化 或 者 Kryo， 而 是 使 用 特殊 的 编码 
器 来 为 网 络 间 的 处 理 或 传输 的 对 象 进行 序列 化 。 对 转换 一 个 对 象 为 字 节 的 过 程 来 说 ， 编 码 器 
和 标准 系列 化 器 都 是 可 靠 的， 编码 器 的 代码 是 自动 生成 并 且 使 用 了 一 种 特殊 数据 格式 ， 这 种 
格式 允许 Spark 在 不 需要 将 字 节 解码 成 对 象 的 情况 下 执行 很 多 操作 ， 如 filtering、sorting 和 
hashing 等 。 


1. Scala 
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4.7.7 和 RDD 互 操作 

Spark SQL 支持 两 种 将 已 存在 的 RDD 转化 为 Dataset 的 方法 。 第 一 种 使 用 反射 机 制 ， 它 
包含 指定 类 型 对 象 RDD 的 schema。 这 种 基于 反射 机 制 的 方法 使 代码 更 简洁 ， 而 且 如 果 你 事 
先知 道 数据 schema， 推 荐 使 用 这 种 方式 ， 第 二 种 创建 Dataset 的 方法 是 通过 编程 接口 建立 一 
个 结构 ， 然 后 将 它 应 用 于 一 个 存在 的 RDD。 虽 然 这 种 方法 更 加 人 烦琐， 但 它 允 许 你 在 运行 之 前 
不 知道 其 中 的 列 和 对 应 的 类 型 的 情况 下 构建 Dataset。 
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1. 利用 反射 推导 schema 


Spark SQL 的 Scala 接口 支持 自动 地 将 一 个 包含 case class 的 RDD 转换 为 DataFrame。 这 
个 case class 定义 了 表 结 构 。Case class 的 参数 名 是 通过 反射 机 制 读 取 ， 然 后 变 成 列 名 。Case 
class 可 以 谋 套 或 者 包含 像 Seq 或 Array 之 类 的 复杂 类 型 。 这 个 RDD 可 以 隐 式 地 转换 为 一 个 
DataFrame， 然 后 被 注册 为 一 张 表 。 这 个 表 可 以 随后 被 SQL 的 statement 使 用 。 


(1) Scala 
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(2) Java 


Spark SQL 支持 自动 转换 成 一 个 DataFrame 的 JavaBeans RDD。BeanInfo 利用 反射 定义 表 
的 架构 。 尽 管 Spark SQL 支持 嵌 套 的 JavaBeans、 列 表 或 数组 字段 ， 但 目前 Spark SQL 不 支持 
包含 域 映射 JavaBeans。 你 可 以 创建 一 个 具有 其 领域 的 getter 和 setter， 并 实现 序列 化 接口 类 
的 JavaBean 。 
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(3) Python 

Spark SQL 可 以 转换 RDD 的 行 对 象 到 DataFrame， 推 断 数据 类 型 。 行 是 通过 传递 键 / 值 对 
列表 参数 到 行 类 构造 的 。 这 个 列表 键 定 义 表 列 的 名 称 和 按 整 个 数据 库 采 样 推断 类 型 ， 类 似 的 
推论 ， 在 JSON 文件 执行 。 
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2. 编程 方式 定义 Schema 


当 case class 不 能 被 事先 定义 〈 比 如 记录 的 结构 被 编码 为 字符 串 ， 或 者 对 不 同 的 用 户 ， 文 
本 数据 集 被 不 同 的 解析 并 进行 字段 投影 ) ，DataFrame 可 以 通过 以 下 3 个 方法 实现 编程 创 
建 : 

@ ”从 原始 RDD 创建 RowS 形式 的 RDD。 

@ 以 StructType 创建 匹配 上 一 个 方法 中 RowS 形式 的 RDD 的 模式 。 

@ ”通过 SparkSession 提供 的 createDataFrame 方法 将 模式 应 用 于 RowS 形式 的 RDD。 


(1) Scala 
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(2) Java 


当 JavaBean 类 不 能 提前 被 定义 时 ，DataFrame 可 以 如 上 面 Scala 类 似 处 理 ， 通 过 3 个 步 
又 实现 编程 创建 。 
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(3) Python 


若 关 键 字 参数 字典 不 能 被 提前 定义 ， 则 DataFrame 可 以 如 Scala 和 Java 类 似 处 理 ， 通 过 
3 个 步骤 实现 编程 创建 。 
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4.8 Spark 数据 源 


Spark SQL 支持 基于 DataFrame 操作 一 系列 不 同 的 数据 源 。DataFrame 既 可 以 当成 一 个 普 
通 RDD 来 操作 ， 也 可 以 将 其 注册 成 一 个 临时 表 来 查询 。 把 DataFrame 注册 为 表 之 后 ， 你 就 
可 以 基于 这 个 表 执行 SQL 语句 了 。 本 节 将 描述 加 载 和 保存 数据 的 一 些 通用 方法 ， 包 含 了 不 同 
的 Spark 数据 源 ， 然 后 深入 介绍 一 下 内 建 数 据 源 可 用 选项 。 


4.8.1 通用 加 载 /保存 函数 
在 最 简单 的 情况 下 ， 所 有 操作 都 会 以 默认 类 型 数据 源 来 加 载 数据 〈 默 认 是 Parquet， 除 非 
修改 了 spark.sql.sources.default 配置 ) 。 


1. 手动 指定 选项 


你 也 可 以 手动 指定 数据 源 ， 并 设置 一 些 额 外 的 选项 参数 。 数 据 源 可 由 其 全 名 指定 (如 ， 
org.apache.spark.sql.parquet) ， 而 对 于 内 建 支持 的 数据 源 ， 可 以 使 用 简写 名 (json、parquet、 
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jdbc) 。 任 意 类 型 数据 源 创建 的 DataFrame 都 可 以 用 下 面 这 种 语法 转 成 其 他 类 型 的 数据 格式 。 
(1) Scala 


(2) Java 


2. 在 文件 上 直接 执行 SQL 


除了 使 用 读 取 API， 加 载 一 个 文件 到 SATAFrame， 然 后 查询 它 的 方式 ， 你 同样 可 以 通过 
SQL 直接 查询 文件 。 


(1) Scala 


(2) Java 


(3) Python 
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(4) R 
df <- sql("SELECT * FROM Parquet. examples/src/main/resources/users.Parquet `") 
3. 保存 模式 


保存 操作 可 选 SaveMode， 它 指定 了 如 何 处 理 现 有 的 数据 。 需 要 重视 的 一 点 是 这 些 保存 模 
式 没 有 使 用 任何 锁 ， 并 且 不 具有 原子 性 。 此 外 ， 当 执行 Overwrite 时 ， 数 据 将 先 被 删除 ， 然 
后 写 出 新 数据 。 保 存 模式 如 表 4-8 所 示 。 




















表 4-8 保存 模式 

Scala/Java 含义 

SaveMode.ErrorlfEcists (默认 ) 保存 DataFrame 到 数据 源 时 ， 如 果 数 据 已 经 存在 ， 将 抛 
出 一 个 异常 

SaveMode.Append 保存 DataFrame 到 数据 源 时 ， 如 果 数 据 / 表 存在 时 ， 
DataFrame 的 内 容 将 追加 到 已 存在 的 数据 后 

SaveMode.Overwrite Overwrite 模式 意味 着 当 保存 一 个 DataFrame 到 数据 源 
时 ， 如 果 数 据 / 表 已 经 存在 ， 存 在 的 数据 将 会 被 
DataFrame 的 内 容 覆 盖 

SaveMode.Ignore Ignore 模式 意味 着 当 保 存 一 个 DataFrame 到 数据 源 时 ， 
如 果 数 据 已 经 存在 ， 保 存 操作 将 不 会 保存 DataFrame 的 
内 容 ， 并 且 不 会 改变 原 数 据 。 这 与 SQL 中 的 CREATE 
TABLE IF NOT EXISTS 相似 

4. 保存 到 持久 化 表 


也 可 以 通过 saveAsTable 命令 将 DataFrame 作为 持久 化 表 保 存 到 Hive 元 数据 库 中 。 注 意 
使 用 此 特性 时 不 需要 事先 部 署 Hive。Spark 将 为 你 创建 一 个 默认 的 本 地 Hive 元 数据 库 〈 使 用 
Derby) 。 不 同 于 createOrReplaceTempView 命令 ，saveAsTable 将 具体 化 DataFrame 的 内 容 并 
且 在 Hive 元 数据 库 中 创建 一 个 指向 数据 的 指针 。 在 你 保持 你 的 连接 到 相同 的 元 数据 库 时 ， 当 
你 的 Spark 程序 重启 后 持久 化 表 依 然 会 存在 。 通 过 在 SparkSession 上 使 用 表 名 调用 table 命 
令 ， 可 以 创建 用 于 持久 化 表 的 DataFrame。 

默认 的 saveAsTable 将 会 创建 一 个 “托管 表 ”， 意 味 着 数据 的 位 置 将 由 元 数据 库 控制 。 
托管 表 也 有 他 们 自己 的 数据 ， 当 对 应 的 表 被 删除 时 这 些 数据 会 一 并 删除 。 


4.8.2 ”Parquet 文件 

Parquet 是 一 种 流行 的 列 式 存储 格式 。Spark SQL 提供 对 Parquet 文件 的 读 写 支持 ， 而 且 
Parquet 文件 能 够 自动 保存 原始 数据 的 schema。 写 Parquet 文件 的 时 候 ， 所 有 的 字段 都 会 自动 
转 成 nullable， 以 便 向 后 兼容 。 


1. 编程 方式 加 载 数据 
仍然 使 用 上 面 例 子 中 的 数据 : 
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(1) Scala 
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(2) Java 
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(3) Python 
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(5) SQL 


2. 分 区 发 现 


表 分 区 是 Hive 等 系统 中 常用 的 优化 方法 。 在 一 个 分 区 表 中 ， 数 据 常常 存放 在 不 同 的 目录 
中 ， 根 据 分 区 列 的 值 的 不 同 ， 编 码 了 每 个 分 区 目录 不 同 的 路 径 。 目 前 parquet 数据 源 已 经 可 以 
自动 地 发 现 和 推断 分 区 信息 。 例 如 ， 我 们 可 以 用 下 面 的 目录 结构 存储 所 有 我 们 以 前 经 常 使 用 
的 数据 到 分 区 表 ， 只 需要 额外 地 添加 两 个 列 gender 和 country 作为 分 区 列 : 
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在 这 个 例子 中 ， 如 果 需 要 读 取 Parquet 文件 数据 ， 我 们 只 需要 把 path/to/table 作为 参数 传 
给 SQLContextread.parquet 或 者 SQLContextread.load。Spark SQL 能 够 自动 地 从 路 径 中 提取 
出 分 区 信息 ， 随 后 返回 的 DataFrame 的 schema 如 下 : 








注意 分 区 列 的 数据 类 型 是 自动 推断 的 。 目 前 支持 数值 型 数据 和 字符 串 型 数据 。 有 时 候 用 
户 并 不 想 自动 推断 分 区 列 的 数据 类 型 ， 这 种 情况 下 ， 可 以 通过 配置 
spark.sql.sources.partitionColumnTypeInference.enabled 参数 来 配置 自动 类 型 推断 ， 默 认 情况 下 
是 true。 当 关闭 类 型 推断 后 ， 分 区 列 的 类 型 将 为 字符 串 型 。 

从 Spark1.6.0 开始 ， 在 默认 情况 下 ， 只 在 给 定 的 路 径 下 进行 分 区 发 现 。 在 上 述 的 例子 
中 ， 如 果 用 户 将 path/to/table/gender=male 传 给 SparkSession.read.parquet 或 者 
SparkSession.read.load，gender 将 会 被 认为 是 分 区 列 。 如 果 用 户 需 要 指定 分 区 开始 的 基础 路 
径 ， 可 以 将 basePath 设置 到 数据 源 选 项 。 例 如 ， 当 path/to/table/gender=male 是 数据 的 路 径 ， 
并 且 用 户 设 置 basePath 为 path/to/table，gender 将 作为 分 区 列 。 


3. 模式 ( Schema ) 合并 


与 ProtocolBuffer、Avro 和 Thrift 类 似 ，Parquet 同样 支持 schema 的 演变 。 用 户 可 以 以 一 
个 简单 点 的 schema 开始 ， 然 后 在 需要 时 逐渐 地 添加 更 多 列 到 schema。 使 用 这 种 方法 ， 用 户 
将 最 终 得 到 由 不 同 的 但 是 相互 兼容 的 schema 构成 的 多 个 Parquet 文件 。Parquet 数据 源 目前 可 
以 自动 地 检测 这 种 情况 并 且 合并 这 些 文件 的 schema。 
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由 于 合并 schema 是 相对 代价 较 大 的 操作 ， 而 且 在 大 多 数 情 况 下 并 不 需要 这 样 ， 从 1.5.0 
开始 我 们 默认 将 它 关 闭 ， 你 可 以 通过 以 下 方法 使 它 生效 : 


@ ”在 读 取 Parquet 文件 时 (就 像 下 面 的 例子 ) 设置 数据 源 操作 mergeSchema 为 true。 
@ 设置 全 局 SQL 选项 spark.sql.parquet.mergeSchema 为 true。 





4. Hive metastore Parquet table 转换 


在 读 写 Hive metastore Parquet 表 时 ，Spark SQL 用 的 是 内 部 的 Parquet 支持 库 ， 而 不 是 
Hive SerDe， 因 为 这 样 性 能 更 好 。 这 一 行为 是 由 spark.sql.hive.convertMetastoreParquet 配置 项 
来 控制 的 ， 而 且 默认 是 启用 的 。 

(1) Hive/Parquet schema 调和 

从 表 的 schema 处 理 的 角度 来 看 ，Hive 和 Parquet 有 两 点 关键 的 不 同 之 处 。 

@ Hive 是 类 型 敏感 的 ， 而 Parquet 并 不 是 。 

@ Hive 中 所 有 列 都 是 非 空 的 ， 而 Parquet 中 非 空 是 很 重要 的 特性 。 
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因为 这 个 原因 ， 当 我 们 需要 将 Hive 元 存储 转换 为 Spark SQL Parquet 表 中 的 Parquet 表 
时 ， 我 们 需要 调节 Hive 元 存储 的 schema 和 Parquet 的 schema。 调 节 规 则 如 下 : 


@@ 不 管 是 否 可 为 空 值 ， 两 种 schema 中 具有 相同 名 字 的 字段 必须 具有 相同 的 数据 类 型 。 
这 种 调节 字段 应 该 有 与 Parquet 一 方 相同 的 数据 类 型 ， 因 此 可 为 空 值 的 特性 很 重 
要 。 
@ ”调节 的 schema 准确 地 包含 在 Hive 元 存储 schema 中 定义 的 字段 。 
@ ”任何 只 在 Parquet schema 中 出 现 的 字段 都 会 在 调节 schema 中 被 丢弃 。 
@ ”任何 只 出 现在 Hive 元 存储 schema 中 的 字段 都 会 在 调节 schema 中 被 添加 为 可 为 空 的 
字段 。 
(2) 刷新 元 数据 
为 了 更 好 的 性 能 ，Spark SQL 会 缓存 Parquet 元 数据 。 当 Hive 元 存储 Parquet 表 转 换 操作 
可 用 时 ， 这 些 被 转换 的 表 的 元 数据 同样 被 缓存 。 如 果 这 些 表 被 Hive 或 者 外 部 工具 更 新 ， 你 需 
要 手动 更 新 元 数据 以 保持 其 一 致 性 。 





5. 配置 


Parquet 的 配置 可 以 使 用 SparkSession 中 的 setConf 方法 进行 ， 或 者 使 用 SQL 执行 SET 
key=value 命令 。Parquet 配置 如 表 4-9 所 示 。 


表 4-9 Parquet 配置 
属性 名 默认 值 ”含义 
有 些 老 系统 ， 如 : 特定 版 本 的 Impala、Hive， 或 者 老 版 本 的 Spark SQL, 不 区 


分 二 进 制 数 据 和 字符 串 类 型 数据 。 这 个 标志 的 意思 是 ， 让 Spark SQL 把 二 进 制 
二 数据 当 字符 串 处 理 ， 以 兼容 老 系统 


有 些 老 系统 ， 如 : 特定 版 本 的 Impala、Hive， 把 时 间 戳 存 成 INT96。 这 个 配置 
int96AsTimestamp 的 作用 是 ， 让 Spark SQL 把 这 些 INT96 解释 为 timestamp， 以 兼容 老 系统 


ksql, — - 
et 缓存 Parquet schema 元 数据 。 可 以 提升 查询 静态 数据 的 速度 
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( 续 表 ) 
属性 名 默认 值 ”含义 


spark.sql.parquet. | . 设置 Parquet 文件 的 压缩 编码 格式 。 可 接受 的 值 有 : uncompressed、snappy、 
compression.codec | SP gzip 《默认 ) ，lzo 


spark.sql.parquet. 
et | 启用 过 滤器 下 推 优化 ， 可 以 将 过 滤 条 件 尽量 推 到 最 下 层 ， 已 取得 性 能 提升 


spark.sql.hive.con 
Vettetidhore Ee Spark SQL 将 使 用 Hive SerDe， 而 不 是 内 建 的 对 Parquet tables 的 支 


Parquet 


Parquet 使 用 的 数据 输出 类 。 这 个 类 必须 是 
org.apache.hadoop.mapreduce.OutputCommitter 的 子 类 。 一 般 来 说 ， 它 也 应 该 是 


org.apache.parquet.hadoop.ParquetOutputCommitter 的 子 类 。 
spark.sql.parquet. 注意 : 
output.committer. | ”|(Q》 如 果 启 用 spark.speculation， 这 个 选项 将 被 自动 忽略 。 
class (2) 这 个 选项 必须 用 hadoop configuration 设置 ， 而 不 是 Spark SQLConf。 
(3) 这 个 选项 会 覆盖 spark.sql.sources.outputCommitterClass。 


O 
al 如 果 设 为 tue， 那 么 Parquet 数据 源 将 会 merge 所 有 数据 文件 的 schema; 否 
Spa csq Parque ”| false 则 ，schema 是 从 summary file 获取 的 (如 果 summary file 没有 设置 ， 则 随机 选 
mergeSchema = 





4.8.3 JSON 数据 集 

Spark SQL 可 以 自动 推断 JSON 数据 集 的 schema 并 且 加 载 为 Dataset[Row]， 可 以 对 
String 类 型 的 RDD 或 者 JSON 文件 使 用 SparkSession.read.json() 来 实现 这 种 转换 。 注 意 ， 这 里 
的 JSON 文件 不 是 通常 意义 的 JSON 文件 ， 每 一 行 必须 包含 分 离 的 、 完 整 有 效 的 JSON 对 
象 。 因 此 ， 不 支持 常用 的 多 行 式 JSON 文件 。 
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注意 ，RDD[String] 中 每 一 个 元 素 必 须 是 一 个 字符 串 形 式 的 JSON 对 象 。 可 以 在 Spark 仓 
库 的 “examples/src/main/scala/org/apache/spark/examples/sql/SQLDataSourceExample.scala” 找 
到 完整 的 代码 。 


4.8.4 Hive 表 

Spark SQL 同样 支持 从 Apache Hive 中 读 写 数 据 。 但 是 ， 自 从 Hive 有 大 量 依 赖 之 后 ， 这 
些 依赖 就 不 包括 在 Spark 发 布 版 中 了 。 如 果 Hive 的 依赖 可 以 在 环境 变量 中 找到 ，Spark 将 自 
动 加载 它 们 。 注 意 这 些 Hive 依赖 项 同样 必须 在 每 个 Worker 节点 上 存在 ， 因 为 他 们 需要 访问 
Hive 序列 化 和 反 序 列 化 库 以 便 可 以 访问 Hive 中 存储 的 数据 。 可 以 在 conf 目 录 中 的 hive- 
site.xml、core-site.xml (安全 配置 ) 和 hdfs-site.xml (HDFS 配置 ) 这 几 个 文件 中 进行 配置 。 

当 在 Hive 上 工作 时 ， 必 须 实例 化 SparkSession 对 Hive 的 支持 ， 包 括 对 持久 化 Hive 元 存 
储 的 连通 性 、 对 Hive 序列 化 反 序列 化 、Hive 用 户 自 定义 函数 的 支持 。 当 没有 在 hive-site.xml 
配置 时 ，context 会 自动 在 当前 目录 创建 metastore_db 并 且 创 建 一 个 被 spark.sql.warehouse.dir 
配置 的 目录 ， 默 认 在 Spark 应 用 启动 的 当前 目录 的 spark-warehouse 中 配置 。 注 意 从 
Spark2.0.0 开始 ，hive-site.xml 中 的 hive.metastore.warehouse.dir 参数 被 弃 用 。 作 为 奉 代 ， 使 用 
spark.sql.warehouse.dir 来 指定 仓库 中 数据 库 的 位 置 。 你 可 能 需要 授予 写 权 限 给 启动 Spark 应 
用 的 用 户 。 


1. Scala 
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关于 和 不 同 版 本 的 Hive 元 存储 交互 。Spark SQL 对 Hive 支持 的 最 重要 的 特点 之 一 是 与 
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Hive 元 存储 的 交互 ， 这 使 得 SparkSQL 可 以 访问 Hive 表 的 元 数据 。 从 Spark1.4.0 开始 ， 可 以 
使 用 一 个 Spark SQL 的 二 进 制 构建 来 查询 不 同 版 本 的 Hive 元 存储 。Spark SQL 在 内 部 编译 
Hivel.2.1， 并 且 使 用 这 些 classes 用 于 内 部 执行 〈 序 列 化 、 反 序列 化 、UDFs、UDAFs 等 ) 。 


4.8.5 用 JDBC 连接 其 他 数据 库 

Spark SQL 同样 包括 可 以 使 用 JDBC 从 其 他 数据 库 读 取 数据 的 数据 源 。 此 功能 优先 使 用 
JdbcRDD， 这 是 因为 返回 的 结果 作为 一 个 DataFrame， 并 且 可 以 轻松 地 使 用 Spark SQL 处 理 
或 者 与 其 他 数据 源 进行 连接 。 利 用 Java 或 者 Python 可 以 更 容易 地 使 用 JDBC 数据 源 ， 因 为 
它们 不 需要 用 户 提供 ClassTag。 (注意 这 与 Spark SQLJDBC 服务 器 可 以 允许 其 他 应 用 使 用 
Spark SQL 执行 查询 语句 不 同 ) 

在 开始 之 前 你 需要 将 你 指定 的 数据 库 的 JDBC driver 包含 在 Spark 的 环境 变量 中 。 例 如 ， 
为 了 从 Spark Shell 连接 到 postgres， 你 需要 执行 以 下 命令 : 


SPARK_ CLASSPATH=postgresql-9.3-1102-jdbc41.jar bin/spark-shell 


远程 数据 库 的 表 可 以 通过 Data Sources API， 用 DataFrame 或 者 Spark SQL 临时 表 来 装 
载 。 如 表 4-10 所 示 是 其 选项 列表 。 


表 4-10 选项 列表 






需要 连接 的 JDBC URL 


需要 读 取 的 JDBC 表 。 注 意 ， 任 何 可 以 填 在 SQL 的 where 子 句 中 的 东西 都 
可 以 填 在 这 里 〈 既 可 以 填 完整 的 表 名 ， 也 可 填 括号 括 起 来 的 子 查 询 语句 ) 


JDBC driver 的 类 名 。 这 个 类 必须 在 Master 和 Worker 节点 上 都 可 用 ， 这 样 
各 个 节点 才能 将 driver 注册 到 JDBC 的 子 系统 中 


这 几 个 选项 ， 如 果 指 定 其 中 一 个 ， 则 必须 全 部 指定 。 他 们 描述 了 多 个 
Worker 如 何 并 行 地 读 入 数据 ， 并 将 表 分 区 。partitionColumn 必须 是 所 查询 
的 表 中 的 一 个 数值 字段 。 注 意 ，lowerBound 和 upperBound 只 是 用 于 决定 分 
区 跨度 的 ， 而 不 是 过 滤 表 中 的 行 。 因 此 ， 表 中 所 有 的 行 都 会 被 分 区 ， 然 后 
返回 

JDBC fetch size， 决 定 每 次 获取 多 少 行 数据 。 在 JDBC 驱动 上 设 成 较 小 的 值 
有 利于 性 能 优化 如 ，Oracle 上 设 为 10) 












partitionColumn 、lowerBound 、 
upperBound、numPartitions 















val jdbcDF = sqlContext.read.format ("jdbc") .options ( 
Map ("url" ->"jdbc:postgresql:dbserver", 
"dbtable" ->"schema.tablename")) .load() 
需要 注意 : JDBC driver class 必须 在 所 有 client session 或 者 executor 上 ， 对 Java 的 原生 
classloader 可 见 。 这 是 因为 Java 的 DriverManager 在 打开 一 个 连接 之 前 ， 会 做 安全 检查 ， 并 
忽略 所 有 对 原声 classloader 不 可 见 的 driver。 最 简单 的 一 种 方法 就 是 在 所 有 Worker 节点 上 修 
改 compute_classpath.sh， 并 包含 你 所 需 的 driverjar 包 。 
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一 些 数据 库 ， 如 H2， 会 把 所 有 的 名 字 转 大 写 。 对 于 这 些 数据 库 ， 在 Spark SQL 中 必须 也 
使 用 大 写 。 


4.9 Spark 性 能 调 优 


对 于 有 一 定 计 算 量 的 Spark 作业 来 说 ， 可 能 的 性 能 改进 的 方式 : 不 是 把 数据 缓存 在 内 存 
里 ， 就 是 调整 一 些 开销 较 大 的 选项 参数 。 

1. 缓存 数据 到 内 存 

Spark SQL 可 以 通过 调用 spark.cacheTable("tableName") 或 dataFrame.cache() 来 将 表 以 列 
式 形 式 缓存 在 内 存 中 ， 然 后 Spark SQL 可 以 只 扫描 需要 的 列 ， 并 且 可 以 自动 调节 压缩 以 最 小 
化 内 存 使 用 率 和 GC 压力 。 可 以 调用 spark.uncacheTable("tableName") 来 将 表 从 内 存 中 删除 。 

可 以 在 SparkSession 上 使 用 setConf 方法 来 配置 内 存 缓存 ， 或 者 使 用 SQL 执行 SET 
key=value 命令 。 如 表 4-11 所 示 为 查询 任务 配置 内 存 缓存 方法 。 

表 4-11 查询 任务 配置 内 存 缓存 方法 

属性 名 默认 值 E24 


spark.sql.inMemoryColumnarStorage. 如 果 设 置 为 ue，Spark SQL 将 会 根据 数据 统计 信息 自 
compressed 动 为 每 一 列 选择 单独 的 压缩 编码 方式 


人 Memory) 的 风险 





eR 控制 列 式 缓存 批量 的 大 小 。 增 大 批量 大 小 可 以 提高 内 
Pa 时 ge. | 10000 存 利用 率 和 压缩 率 ， 但 同时 也 会 带 来 OOM (Out Of 


2. 其 他 配置 选项 


如 表 4-12 所 示 的 选项 同样 可 以 用 于 查询 语句 执行 时 的 性 能 调 优 ， 在 以 后 发 布 的 版 本 中 可 
能 会 弃 用 这 些 选项 ， 更 多 地 将 优化 改 为 自动 执行。 


表 4-12 ”查询 任务 配置 内 存 缓存 的 其 他 方法 













配置 join 操作 时 ， 能 够 作为 广播 变量 的 最 大 table 的 大 小 。 
设置 为 -1， 表 示 禁 用 广播 。 注 意 ， 目 前 的 元 数据 统计 仅 支 
10485760 (10 MB) | 持 Hive metastore 中 的 表 ， 并 且 需 要 运行 这 个 命令 : 
ANALYSE TABLE <tableName> COMPUTE STATISTICS 
noscan 


设 为 tue， 则 启用 优化 的 Tungsten 物理 执行 后 端 。Tungsten 
会 显 式 地 管理 内 存 ， 并 动态 生成 表达 式 求 值 的 字 节 码 


配置 数据 混 洗 (shuffle) 时 (join 或 者 聚合 操作 ) 使 用 的 分 
区 数 


spark.sql.autoBroadcastJoin 
Threshold 





spark.sql.tungsten.enabled |true 





spark.sql.shuffle.partitions 











144 


4 .1 0 分 布 式 SQL 引 擎 


Spark SQL 同样 可 以 使 用 JDBC/ODBC 或 者 命令 行 接口 来 作为 一 个 分 布 式 查询 引擎 。 在 
这 种 模式 中 ， 终 端 用 户 或 者 应 用 可 以 通过 执行 SQL 查询 语句 直接 与 Spark SQL 进行 交互 ， 不 
需要 写 任何 代码 。 





1. 运行 Thrift JDBC/ODBC 服务 

这 里 实现 的 Thrift JDBC/ODBC server 和 Hive-1.2.1 中 的 HiveServer2 是 相同 的 。 你 可 以 
使 用 beeline 脚本 来 测试 Spark 或 者 Hive-1.2.1 的 JDBC server。 

在 Spark 目录 下 运行 下 面 这 个 命令 ， 启 动 一 个 JDBC/ODBC server。 





这 个 脚本 能 接受 所 有 bin/spark-submit 命令 支持 的 选项 参数 ， 外 加 一 个 -hiveconf 选项 
来 指定 Hive 属性 ， 运 行 ./sbin/start-thriftserver.sh -help 可 以 查看 完整 的 选项 列表 。 默 认 情 况 
下 ， 启 动 的 server 将 会 在 localhost:10000 端口 上 监听 。 要 改变 监听 主机 名 或 端口 ， 可 以 用 以 
下 环境 变量 : 





或 者 Hive 系统 属性 来 指定 : 





接 下 来 ， 可 以 开始 在 beeline 中 测试 这 个 Thrift JDBC/ODBC server: 


下 面 的 指令 ， 可 以 连接 到 一 个 JDBC/ODBC server: 


Hive 的 配置 是 在 conf/ 目 录 下 的 hive-site.xml、core-site.xml、hdfs-site.xml 中 指定 的 ， 可 
以 在 beeline 的 脚本 中 指定 。 
Thrift JDBC server 也 支持 通过 HTTP 传输 Thrift RPC 消息 ， 以 下 配置 (在 conf/hive- 
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site.xml 中 ) 将 启用 HTTP 模式 : 





同样 ， 在 beeline 中 也 可 以 用 HTTP 模式 连接 JDBC/ODBC server: 


2. 使 用 Spark SQL 命令 行 工 具 CLI 

Spark SQL CLI 是 一 个 很 方便 的 工具 ， 它 可 以 用 local mode 运行 hive metastore service， 
并 且 在 命令 行 中 执行 输入 的 查询 。 注 意 Spark SQL CLI 目前 还 不 支持 和 Thrift JDBC server 通 
信 。 使 用 如 下 命令 ， 在 spark 目录 下 启动 一 个 Spark SQL CLI: 


Hive 配置 在 conf 目录 下 hive-site.xml、core-site.xml、hdfs-site.xml 中 设置 ， 可 以 用 这 个 
命令 查看 完整 的 选项 列表 : 


4.1 1 本章 小 结 


Apache Spark 是 一 个 围绕 速度 、 易 用 性 和 复杂 分 析 构 建 的 大 数据 处 理 框架 。Spark 运行 在 
现 有 的 Hadoop 分 布 式 文件 系统 (HDFS) 基础 之 上 ， 提 供 额外 的 增强 功能 。 它 支持 将 Spark 
应 用 部 署 到 现存 的 Hadoop vl 集群 (with SIMR 一 Spark Inside MapReduce) 或 Hadoop v2 
YARN 集群 甚至 是 Apache Mesos 之 中 ， 提 供 一 个 管理 不 同 的 大 数据 用 例 和 需求 的 全 面 且 统 一 
的 解决 方案 。 本 章 主 要 介绍 Spark 通过 全 面 、 统 一 的 框架 管理 各 种 有 着 不 同性 质 〈 文 本 数 
据 、 图 表 数 据 等 ) 的 数据 集 和 数据 源 〈 批 量 数据 或 实时 的 流 数 据 ) 的 大 数据 处 理 的 需求 ， 同 
时 例 举 基于 Spark 用 Java、R、Scala 或 Python 快速 的 程序 编写 ， 最 后 介绍 Spark SQL 查询 和 
DataFrame 分 布 式 数据 集 数据 处 理 。 
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第 5 章 
Spark MLlib 机 器 学 习 算 法 实现 


Spark 之 所 以 在 机 器 学 习 方 面具 有 得 天 独 厚 的 优势 ， 有 以 下 原因 3: 

(1) 机 器 学 习 算 法 一 般 都 有 很 多 个 步骤 迭代 计算 的 过 程 ， 机 器 学 习 的 计算 需要 在 多 次 迭 
代 后 获得 足够 小 的 误差 或 者 足够 收敛 才 会 停止 ， 迭 代 时 如 果 使 用 Hadoop 的 MapReduce 计算 
框架 ， 每 次 计算 都 要 读 / 写 磁盘 以 及 任务 的 启动 等 工作 ， 这 会 导致 非常 大 的 WO 和 CPU 消 
耗 。 而 Spark 基于 内 存 的 计算 模型 天 生 就 擅长 迭代 计算 ， 多 个 步 又 计算 直接 在 内 存 中 完成 ， 

只 有 在 必要 时 才 会 操作 磁盘 和 网 络 ， 所 以 说 Spark 正 是 机 器 学 习 的 理想 的 平台 。 

(2) 从 通信 的 角度 讲 ， 如 果 使 用 Hadoop 的 MapReduce 计算 框架 ，JobTracker 和 
TaskTracker 之 间 由 于 是 通过 heartbeat 的 方式 来 进行 的 通信 和 传递 数据 ， 会 导致 非常 慢 的 执行 
速度 ， 而 Spark 具有 出 色 而 高 效 的 Akka 和 Netty 通信 系统 ， 通 信 效 率 极 高 59 。 





Spark MLlib 基础 


MLlib (Machine Learnig lib) 是 Spark 对 常用 的 机 器 学 习 算法 的 实现 库 ， 同时 包括 相关 
的 测试 和 数据 生成 器 。Spark 的 设计 初衷 就 是 为 了 支持 一 些 迭 代 的 Job， 这 正好 符合 很 多 机 器 
学 习 算法 的 特点 S79。MLlib 目前 支持 4 种 常见 的 机 器 学 习 问 题 : 分 类 、 回 归 、 聚 类 和 协同 




























































































过 滤 ，MLlib 在 Spark 整个 生态 系统 中 的 位 置 如 图 5-1 所 示 。 
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Spark Runtime 
JBLs 




















图 5-1 MLlib 在 Spark 整个 生态 系统 中 的 位 置 





云 计算 环境 下 Spark 大 数据 处 理 技术 与 实践 


5.1.1 机 器 学 习 

机 器 学 习 (Machine Leaming，ML) 是 一 门 多 领域 交叉 学 科 ， 涉 及 概率 论 、 统 计 学 、 通 
近 论 、 凸 分 析 、 算 法 复杂 度 理论 等 多 门 学 科 。 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行 
为 ， 以 获取 新 的 知识 或 技能 ， 重 新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 的 性 能 。 它 是 人 工 
智能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 ， 其 应 用 遍及 人 工 智能 的 各 个 领域 ， 它 主要 使 
用 归纳 、 综 合 ， 而 不 是 演绎 。 

Tom Mitchell 的 机 器 学 习 〈1997) 对 信息 论 中 的 一 些 概念 有 详细 的 解释 ， 其 中 定义 机 器 
学 习 时 提 到 ，“ 机 器 学 习 是 对 能 通过 经 验 自动 改进 的 计算 机 算法 的 研究 。” (Machine 
Learning is the study of computer algorithms that improve automatically through experience.) 。 

Alpaydin (2004) 同时 提出 自己 对 机 器 学 习 的 定义 ，“ 机 器 学 习 是 用 数据 或 以 往 的 经 
验 ， 以 此 优化 计算 机 程序 的 性 能 标准 。” (Machine learning is programming computers to 
optimize a performance criterion using example data or past experience.) 。 

严格 的 提 法 是 : 机 器 学 习 是 一 门 研究 机 器 获取 新 知识 和 新 技能 ， 并 识别 现 有 知识 的 学 
问 。 这 里 所 说 的 “机 器 ”， 指 的 就 是 计算 机 ， 包 括 电 子 计 算 机 、 中 子 计算 机 、 光 子 计 算 机 或 
神经 计算 机 等 。 

机 器 学 习 已 经 有 了 十 分 广泛 的 应 用 ， 例 如 : 数据 挖掘 、 计 算 机 视觉 、 自 然 语 言 处 理 、 生 
物 特征 识别 、 搜 索引 擎 、 医 学 诊断 、 检 测 信用 卡 欺 诈 、 证 券 市 场 分 析 、DNA 序列 测序 、 语 音 
和 手写 识别 、 战 略 游戏 和 机 器 人 运用 。 


5.1.2 ”机 器 学 习 分 类 

机 器 学 习 是 数据 通过 算法 构建 出 模型 并 对 模型 进行 评估 ， 评 估 的 性 能 如 果 达 到 要 求 就 拿 
这 个 模型 来 测试 其 他 的 数据 ， 如 果 达 不 到 要 求 就 要 调整 算法 来 重新 建立 模型 ， 再 次 进行 评 
估 ， 如 此 循环 往复 ， 最 终 获得 满意 的 经 验 来 处 理 其 他 的 数据 。 

1. 监督 学 习 

监督 是 从 给 定 的 训练 数据 集中 学 习 一 个 函数 〈 模 型 ) ， 当 新 的 数据 到 来 时 ， 可 以 根据 这 
个 函数 〈 模 型 ) 预测 结果 。 监 督学 习 的 训练 集 要 求 包 括 输入 和 输出 ， 也 可 以 说 是 特征 和 目 
标 。 训 练 集中 的 目标 是 由 人 标注 (标量 ) 的。 在 监督 式 学 习 下 ， 输 入 数据 被 称 为 “训练 数 
据 ”， 每 组 训练 数据 有 一 个 明确 的 标识 或 结果 ， 如 对 防 垃圾 邮件 系统 中 “垃圾 邮件 ”“ 非 垃 
圾 邮件 ”， 对 手写 数字 识别 中 的 “1”“2”“3” 等 。 在 建立 预测 模型 时 ， 监 督 式 学习 建 立 一 
个 学 习 过 程 ， 将 预测 结果 与 “训练 数据 ”的 实际 结果 进行 比较 ， 不 断 调整 预测 模型 ， 直 到 模 
型 的 预测 结果 达到 一 个 预期 的 准确 率 。 常 见 的 监督 学 习 算 法 包括 回归 分 析 和 统计 分 类 。 


监督 学 习 常常 用 于 分 类 ， 因 为 目标 往往 是 让 计算 机 去 学 习 我 们 已 经 创建 好 的 分 类 系统 。 
数字 识别 再 一 次 成 为 分 类 学 习 的 常见 样本 。 一 般 来 说 ， 对 于 那些 有 用 的 分 类 系统 和 容易 判断 
的 分 类 系统 ， 分 类 学 习 都 适用 。 

(1) 二 元 分 类 是 机 器 学 习 要 解决 的 基本 问题 ， 将 测试 数据 分 成 两 个 类 ， 如 垃圾 邮件 的 判 
别 、 房 贷 是 否 允 许 等 问题 的 判断 。 
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(2) 多 元 分 类 是 二 元 分 类 的 逻辑 延伸 。 例 如 ， 在 因特网 的 流 分 类 的 情况 下 ， 根 据 问 题 的 
分 类 ， 网 页 可 以 被 归 类 为 体育 、 新 闻 、 技 术 等 ， 依 此 类 推 。 


监督 学 习 是 训练 神经 网 络 和 决策 树 的 最 常见 技术 。 神 经 网 络 和 决策 树 技术 高 度 依赖 于 事 
先 确定 的 分 类 系统 给 出 的 信息 。 对 于 神经 网 络 来 说 ， 分 类 系统 用 于 判断 网 络 的 错误 ， 然 后 调 
整 网 络 去 适应 它 ， 对 于 决策 树 ， 分 类 系统 用 来 判断 哪些 属性 提供 了 最 多 的 信息 ， 如 此 一 来 可 
以 用 它 解决 分 类 系统 的 问题 。 

2. 半 监 督学 习 

半 监 督学 习 〈Semi-supervised Learning) 是 介 于 监督 学 习 与 无 监督 学 习 之 间 的 一 种 机 器 学 
习 方式 ， 是 模式 识别 和 机 器 学 习 领 域 研究 的 重点 问题 。 它 主要 考虑 如 何 利 用 少量 的 标注 样本 
和 大 量 的 未 标注 样本 进行 训练 和 分 类 的 问题 。 半 监督 学 习 对 于 减少 标注 代价 ， 提 高 学 习 机 器 
性 能 具有 非常 重大 的 实际 意义 。 主 要 算法 有 五 类 : 基于 概率 的 算法 ， 在 现 有 监督 算法 基础 上 
进行 修改 的 方法 ， 直接 依赖 于 聚 类 假设 的 方法 等 ， 在 此 学 习 方 式 下 ， 输 入 数据 部 分 被 标识 
部 分 没有 被 标识 ， 这 种 学 习 模型 可 以 用 来 进行 预测 ， 但 是 模型 首先 需要 学 习 数据 的 内 在 结构 
以 便 合 理 地 组 织 数据 来 进行 预测 。 应 用 场景 包括 分 类 和 回归 ， 算 法 包括 一 些 对 常用 监督 式 学 
习 算法 的 延伸 ， 这 些 算法 首先 试图 对 未 标识 数据 进行 建 模 ， 在 此 基础 上 再 对 标识 的 数据 进行 
预测 ， 如 图 论 推理 算法 Graph Inference) 或 者 拉 普 拉 斯 支持 向 量 机 (Laplacian SVM) 等 。 

半 监 督学 习 分 类 算法 提出 的 时 间 比 较 短 ， 还 有 许多 方面 没有 更 深入 地 研究 。 半 监督 学 习 
从 诞生 以 来 ， 主 要 用 于 处 理 人 工 合成 数据 ， 无 噪声 干扰 的 样本 数据 是 当前 大 部 分 半 监 督学 习 
方法 使 用 的 数据 ， 而 在 实际 生活 中 用 到 的 数据 却 大 部 分 不 是 无 干扰 的 ， 通 常 都 比较 难以 得 到 
纯 样 本 数据 。 

3. 强化 学 习 

强化 学 习 通 过 观察 来 学 习 动作 的 完成 ， 每 个 动作 都 会 对 环境 有 所 影响 ， 学 习 对 象 根据 观 
察 到 的 周围 环境 的 反馈 来 做 出 判断 。 在 这 种 学 习 模 式 下 ， 输 入 数据 作为 对 模型 的 反馈 ， 不 像 
监督 模型 那样 ， 输 入 数据 仅仅 是 作为 一 个 检查 模型 对 错 的 方式 。 在 强化 学 习 下 ， 输 入 数据 直 
接 反馈 到 模型 ， 模 型 必须 对 此 立刻 做 出 调整 。 常 见 的 应 用 场景 包括 动态 系统 以 及 机 器 人 控制 
等 。 常 见 算法 包括 Q-Learning 以 及 时 间 差 学 习 (Temporal difference learning) 。 

在 企业 数据 应 用 的 场景 下 ， 人 们 最 常用 的 可 能 就 是 监督 式 学 习 和 非 监督 学 习 的 模型 。 在 
图 像 识别 等 领域 ， 由 于 存在 大 量 的 非 标识 的 数据 和 少量 的 可 标识 数据 ， 所 以 半 监 督学 习 是 一 
个 很 热 的 话题 ， 而 强化 学 习 更 多 地 应 用 在 机 器 人 控制 及 其 他 需要 进行 系统 控制 的 领域 。 


5.1.3 ”机 器 学 习 常见 算法 

根据 算法 的 功能 和 形式 的 类 似 性 ， 我 们 可 以 把 算法 分 类 ， 比 如 说 基于 树 的 算法 、 基 于 神 
经 网 络 的 算法 等 。 当 然 ， 机 器 学 习 的 范围 非常 庞大 ， 有 些 算 法 很 难 明确 归 类 到 某 一 类 ， 而 对 
于 有 些 分 类 来 说 ， 同 一 分 类 的 算法 可 以 针对 不 同类 型 的 问题 。 下 面 用 一 些 相 对 比较 容易 理解 
的 方式 来 解析 一 些 主 要 的 机 器 学 习 算 法 : 
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1. 回归 算法 
回归 算法 是 试图 采用 对 误差 的 衡量 来 探索 变量 之 间 的 关系 的 一 类 算法 。 








回归 算法 是 统计 


机 器 学 习 的 利器 。 在 机 器 学 习 领 域 ， 人 们 说 起 回归 ， 有 时 候 是 指 一 类 问题 ， 有 时 候 是 指 一 类 
算法 ， 这 一 点 常常 会 使 初学 者 有 所 困惑 。 常 见 的 回归 算法 包括 : 最 小 二 乘法 (Ordinary Least 
Square) 、 逻 辑 回 归 (Logistic Regression) 、 逐 步 式 回归 (Stepwise Regression) 、 多 元 自 适 
应 回归 样 条 (Multivariate Adaptive Regression Splines) 以 及 本 地 散 点 平滑 估计 (Locally 





Estimated Scatterplot Smoothing) 等 。 


2. 基于 实例 的 算法 


基于 实例 的 算法 常常 用 来 对 决策 问题 建立 模型 ， 这 样 的 模型 常常 先 选取 一 批 样本 数据 ， 
然后 根据 某 些 近似 性 把 新 数据 与 样本 数据 进行 比较 ， 通 过 这 种 方式 来 寻找 最 佳 的 匹配 。 因 


此 ， 基 于 实例 的 算法 常常 也 被 称 为 “赢家 通 吃 ” 学 习 或 者 “基于 记忆 的 学 习 ” 


。 常 见 的 算法 


包括 k-Nearest Neighbor (KNN) 、 学 习 矢 量 量化 (Learning Vector Quantization， LVQ) 以 


及 自 组 织 映射 算法 (Self-Organizing Map，SOM) 等 。 


3. 正则 化 方法 


正则 化 方法 是 其 他 算法 (通常 是 回归 算法 ) 的 延伸 ， 根 据 算法 的 复杂 度 对 算法 进行 调 
整 。 正 则 化 方法 通常 对 简单 模型 予以 奖励 而 对 复杂 算法 予以 惩罚 。 常 见 的 算法 包括 : Ridge 
Regression、Least Absolute Shrinkage and Selection Operator (LASSO) 以 及 弹性 网 络 (Elastic 





Net) 等 。 
4. 决策 树 学 习 


决策 树 算法 根据 数据 的 属性 采用 树 状 结构 建立 决策 模型 ， 决 策 树 模型 常常 用 来 解决 分 类 


和 





回归 问题 。 常 见 的 算法 包括 : 分 类 及 回归 树 ( Classification 


And Regression 


Tree， CART) 、ID3 (Iterative Dichotomiser 3) 、C4.5、Chi-squared Automatic Interaction 
Detection 〈CHAID) 、Decision Stump、 随 机 森林 (Random Forest) 、 多 元 自 适应 回归 样 条 


(MARS) 以 及 梯度 推进 机 (Gradient Boosting Machine，GBM ) 等 。 


5. 贝 叶 斯 学 习 





贝 叶 斯 算法 是 基于 贝 叶 斯 定理 的 一 类 算法 ， 主 要 用 来 解决 分 类 和 回归 问题 。 常 见 算法 包 
括 : 朴素 贝 叶 斯 算法 、 平 均 单 依赖 估计 (Averaged One-Dependence Estimators，AODE) 以 


及 Bayesian Belief Network (BBN) 等 。 


6. 基于 核 的 算法 


基于 核 的 算法 中 最 著名 的 莫 过 于 支持 向 量 机 (SVM) 了 。 基 于 核 的 算法 把 输入 数据 映射 
到 一 个 高 阶 的 向 量 空间 ， 在 这 些 高 阶 向 量 空间 里 ， 有 些 分 类 或 者 回归 问题 能 够 更 容易 解决 。 
常见 的 基于 核 的 算法 包括 : 支持 向 量 机 (Support Vector Machine，SVM) 、 径 向 基 函 数 
(Radial Basis Function，RBF) 以 及 线性 判别 分 析 (Linear Discriminate Analysis，LDA ) 等 。 
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7. 聚 类 算法 

聚 类 就 像 回归 一 样 ， 有 时 候 人 们 描述 的 是 一 类 问题 ， 有 时 候 描 述 的 是 一 类 算法 。 聚 类 算 
法 通常 按照 中 心 点 或 者 分 层 的 方式 对 输入 数据 进行 归并 。 所 有 的 聚 类 算法 都 试图 找到 数据 的 
内 在 结构 ， 以 便 按照 最 大 的 共同 点 将 数据 进行 归 类 。 常 见 的 聚 类 算法 包括 k-Means 算法 以 及 
期 望 最 大 化 算法 (Expectation Maximization，EM) 。 


8. 关联 规则 学 习 
关联 规则 学 习 通 过 寻找 最 能 够 解释 数据 变量 之 间 关系 的 规则 ， 来 找 出 大 量 多 元 数据 集中 
有 用 的 关联 规则 。 常 见 算法 包括 Apriori 算法 和 Eclat 算法 等 。 


9. 人 工 神经 网 络 算法 


人 工 神经 网 络 算法 模拟 生物 神经 网 络 ， 是 一 类 模式 匹配 算法 。 通 常用 于 解决 分 类 和 回归 
问题 。 人 工 神经 网 络 是 机 器 学 习 的 一 个 庞大 的 分 支 ， 有 几 百 种 不 同 的 算法 (其 中 深度 学 习 就 
是 其 中 的 一 类 算法 ， 我 们 会 单独 讨论 )。 重 要 的 人 工 神经 网 络 算法 包括 : 感知 器 神经 网 络 
(Perceptron Neural Network) 、 反 向 传递 (Back Propagation) 、Hopfield 网 络 、 自 组 织 映 射 
(Self-Organizing Map, SOM) 、 学 习 矢 量 量化 (Learning Vector Quantization，LVQ) 等 。 

10. 深度 学 习 算法 

深度 学 习 算法 是 对 人 工 神经 网 络 的 发 展 ， 在 近期 赢得 了 很 多 关注 ， 特 别 是 百度 也 开始 发 
力 深度 学 习 后 ， 更 是 在 国内 引起 了 很 多 关注 。 在 计算 能 力 变 得 日 益 廉价 的 今天 ， 深 度 学 习 试 
图 建立 大 得 多 也 复杂 得 多 的 神经 网 络 。 很 多 深度 学 习 的 算法 是 半 监 督 式 学 习 算法 ， 用 来 处 理 
存在 少量 未 标识 数据 的 大 数据 集 。 常 见 的 深度 学 习 算 法 包括 : 受 限 玻 尔 兹 曼 机 〈Restricted 
Boltzmann Machine， RBN) 、Deep Belief Networks (DBN ) 、 卷 积 网 络 (Convolutional 
Network) 、 堆 栈 式 自动 编码 器 (Stacked Auto-encoders ) 等 。 


11. 降低 维度 算法 

像 聚 类 算法 一 样 ， 降 低 维度 算法 试图 分 析 数 据 的 内 在 结构 ， 不 过 降低 维度 算法 是 以 非 监 
督学 习 的 方式 ， 试 图 利用 较 少 的 信息 来 归纳 或 者 解释 数据 。 这 类 算法 可 以 用 于 高 维 数据 的 可 
视 化 或 者 用 来 简化 数据 以 便 监 督 式 学 习 使 用 。 常 见 的 算法 包括 : 主 成 分 分 析 (Principle 
Component Analysis ， PCA ) 、 偏 最 小 二 乘 回归 (Partial Least Square Regression ， 
PLS) 、 Sammon 映射 、 多 维 尺度 (Multi-Dimensional Scaling, MDS) 、 投 影 追 踪 (Projection 
Pursuit) 等 。 


12. 集成 算法 

集成 算法 用 一 些 相对 较 弱 的 学 习 模型 独立 地 对 同样 的 样本 进行 训练 ， 然 后 把 结果 整合 起 
来 进行 整体 预测 。 集 成 算法 的 主要 难点 在 于 究竟 集成 哪些 独立 的 、 较 弱 的 学 习 模型 以 及 如 何 
把 学 习 结 果 整 合 起 来 。 这 是 一 类 非常 强大 的 算法 ， 同 时 也 非常 流行 。 常 见 的 算法 包括 : 
Boosting 、 Bootstrapped Aggregation ( Bagging ) 、AdaBoost、 堆 辣 涝 化 ( Stacked 
Generalization， Blending) 、 梯 度 推进 机 (Gradient Boosting Machine, GBM) 、 随 机 森林 
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(Random Forest) 等 。 


5.1.4 ”Spark MLlib 机 器 学 习 库 

MLlib 基于 RDD， 可 以 与 Spark SQL、GraphX、Spark Streaming 无 终 集 成， 以 RDD 为 
基石 ，4 个 子 框架 可 构建 大 数据 计算 中 心 。 

MLlib 是 MLBase 的 一 部 分 ， 其 中 MLBase 分 为 4 部 分 : MLlib、MLI、ML Optimizer 和 
MLRuntime 。 


ML Optimizer 会 选择 它 认 为 最 适合 的 、 已 经 在 内 部 实现 好 了 的 机 器 学 习 算 法 和 相关 
参数 ， 来 处 理 用 户 输入 的 数据 ， 并 返回 模型 或 别 的 帮助 分 析 的 结果 。 

MLI 是 一 个 进行 特征 抽取 和 高 级 ML 编程 抽象 的 算法 实现 的 API 或 平台 。 

MLlib 是 Spark 实现 一 些 常见 的 机 器 学 习 算法 和 实用 程序 ， 包 括 分 类 、 回 归 、 聚 
类 、 协 同 过 滤 、 降 维 以 及 底层 优化 ， 该 算法 可 以 进行 可 扩充 。 

MLRuntime 基于 Spark 计算 框架 ， 将 Spark 的 分 布 式 计算 应 用 到 机 器 学 习 领 域 。 


1. Spark MLIib 架构 解析 
图 5-2 给 出 了 Spark MLlib 架构 解析 ， 从 架构 图 可 以 看 出 MLlib 主要 包含 三 个 组 成 部 分 : 


底层 基础 : 包括 Spark 的 运行 库 、 拢 阵 库 和 向 量 库 。 
算法 库 : 包含 广义 线性 模型 、 推 荐 系统 、 聚 类 、 决 策 树 和 评估 的 算法 。 
实用 程序 : 包括 测试 数据 的 生成 、 外 部 数据 的 读 入 等 功能 。 
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2. MLlib 的 底层 基础 解析 


底层 基础 部 分 主要 包括 向 量 接口 和 矩阵 接口 ， 这 两 种 接口 都 会 使 用 Scala 语言 基于 Netlib 
和 BLAS/LAPACK 开发 的 线性 代数 库 Breeze。 

MLlib 支持 本 地 的 密集 向 量 和 稀 玻 向 量 ， 并 且 支 持 标量 向 量 。 

MLlib 同时 支持 本 地 乍 阵 和 分 布 式 和 矩阵， 支持 的 分 布 式 矩阵 分 为 RowMatrix 、 
IndexedRowMatrix、CoordinateMatrix 等 。 

关于 密集 型 和 稀 玻 型 的 向 量 Vector 的 示例 如 下 所 示 : 





dense:1.0.0.0.0.0.3. 


size:7 
sparse:y indices:0 6 


values :1.3. 


稀 玻 矩阵 在 含有 大 量 非 零 元 素 的 向 量 Vector 计算 中 ， 会 节省 大 量 的 空间 并 大 幅度 提高 计 
算 速 度 ， 示 例如 下 所 示 : 
Training set 
12 million examples Me PSE 
一 一 一 一 一 一 一 storage 47G 7G 


500 features 
pe 10% time 240s 58s 


标量 LabledPoint 在 实际 中 也 被 大 量 使 用 ， 例 如 判断 邮件 是 否 为 垃圾 邮件 时 就 可 以 使 用 类 
似 于 以 下 的 代码 : 





可 以 把 表示 为 1.0 的 判断 为 正常 邮件 ， 而 表示 为 0.0 则 作为 垃圾 邮件 来 看 待 。 
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对 于 矩阵 Matrix 而 言 ， 本 地 模式 的 矩阵 如 下 所 示 : 
10 20 
3.0 4.0 


50 ‘60 


分 布 式 和 矩阵 如 图 5-3 所 示 : 








RDDI 
1.0 2.0 天 -一 一 一 一 一 
RDD2 
3.0 4.0 


5.0 6.0 














RDDn 


图 5-3 分布 式 矩阵 
RowMatrix 直接 通过 RDD[Vector] 来 定义 并 可 以 用 来 统计 平均 数 、 方 差 、 协 同方 差 等 : 
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而 IndexedRowMatrix 是 带 有 索引 的 Matrix， 但 其 可 以 通过 toRowMatrix 方法 来 转换 为 
RowMatrix， 从 而 利用 其 统计 功能 ， 代 码 示例 如 下 所 示 : 





CoordinateMatrix 常用 于 稀疏 性 比较 高 的 计算 中 ， 是 由 RDD[MatrixEntry] 来 构建 的 ， 
MatrixEntry 是 一 个 Tuple 类 型 的 元 素 ， 其 中 包含 行 、 列 和 元 素 值 ， 代 码 示例 如 下 所 示 : 





3. MLlib 的 算法 库 核心 








allt 


Generalized Linear Model | Decision Tree | 











54 ”MLlib 算法 库 的 核心 内 容 
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5.1.5 “基于 Spark 常用 的 算法 举例 分 析 

1. 分 类 算法 

分 类 算法 属于 监督 式 学 习 ， 使 用 类 标签 已 知 的 样本 建立 一 个 分 类 函数 或 分 类 模型 ， 应 用 
分 类 模型 ， 能 把 数据 库 中 的 类 标签 未 知 的 数据 进行 归 类 。 分 类 在 数据 挖掘 中 是 一 项 重要 的 任 
务 ， 目 前 在 商业 上 应 用 最 多 ， 常 见 的 典型 应 用 场景 有 流失 预测 、 精 确 营 销 、 客 户 获取 、 个 性 
偏好 等 。MLlib 目前 支持 分 类 算法 有 : 逻辑 回归 、 支 持 向 量 机 、 朴 素 贝 叶 斯 和 决策 树 。 

Spark 分 类 算法 案例 : 导入 训练 数据 集 ， 然 后 在 训练 集 上 执行 训练 算法 ， 最 后 在 所 得 模 
型 上 进行 预测 并 计算 训练 误差 。 





2. 回归 算法 


回归 算法 属于 监督 式 学 习 ， 每 个 个 体 都 有 一 个 与 之 相关 联 的 实数 标签 ， 并 且 我 们 希望 在 
给 出 用 于 表示 这 些 实体 的 数值 特征 后 ， 所 预测 出 的 标签 值 可 以 尽 可 能 接近 实际 值 。MLlib 目 
前 支持 回归 算法 有 : 线性 回归 、 岭 回归 、Lasso 和 决策 树 。 

Spark 回归 算法 案例 : 导入 训练 数据 集 ， 将 其 解析 为 带 标签 点 的 RDD ， 使 
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用 LinearRegressionWithSGD 算法 建立 一 个 简单 的 线性 模型 来 预测 标签 的 值 ， 最 后 计算 均 方差 
来 评估 预测 值 与 实际 值 的 吻合 度 。 





3. 聚 类 算法 


聚 类 算法 属于 非 监督 式 学 习 ， 通 常 被 用 于 探索 性 的 分 析 ， 是 根据 “ 物 以 类 聚 ”的 原理 ， 
将 本 身 没 有 类 别 的 样本 聚集 成 不 同 的 组 ， 这 样 的 一 组 数据 对 象 的 集合 叫做 徐 ， 并 且 对 每 一 个 
这 样 的 簇 进行 描述 的 过 程 。 它 的 目的 是 使 得 属于 同一 簇 的 样本 之 间 应 该 彼此 相似 ， 而 不 同 簇 
的 样本 应 该 足够 不 相似 ， 常 见 的 典型 应 用 场景 有 客户 细 分 、 客 户 研究 、 市 场 细 分 、 价 值 评 
估 。MLlib 目前 支持 广泛 使 用 的 KMmeans 聚 类 算法 。 

Spark 聚 类 算法 案例 :导入 训练 数据 集 ， 使 用 KMeans 对 象 来 将 数据 聚 类 到 两 个 类 簇 当 
中 ， 所 需 的 类 簇 个 数 会 被 传递 到 算法 中 ， 然 后 计算 集 内 均 方差 总 和 (WSSSE〉， 可 以 通过 增 
加 类 簇 的 个 数 来 减 小 误差 。 实际 上 ， 最 优 的 类 簇 数 通常 是 1， 因为 这 一 点 通常 是 WSSSE 
图 中 的 “低谷 点 ”。 
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4. 协同 过 滤 

协同 过 滤 常 被 应 用 于 推荐 系统 ， 这 些 技术 旨 在 补充 用 户 -商品 关联 矩阵 中 所 缺失 的 部 分 。 
MLlib 当前 支持 基于 模型 的 协同 过 滤 ， 其 中 用 户 和 商品 通过 一 小 组 隐语 义 因 子 进行 表达 ， 并 
且 这 些 因子 也 用 于 预测 缺失 的 元 素 。 

Spark 协同 过 滤 算 法 案例 ， 导 入 训练 数据 集 ， 数 据 每 一 行 由 一 个 用 户 、 一 个 商品 和 相应 
的 评分 组 成 。 假 设 评分 是 显 性 的 ， 使 用 默认 的 ALS.train0 方 法 ， 通 过 计算 预测 出 的 评分 的 均 
方差 来 评估 这 个 推荐 模型 。 
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val ratesAndPreds = ratings.map{ 

case Rating(user, product, rate) => ((user, product), rate) 
} .join (Predictions) 

val MSE = ratesAndPreds.map{ 

case ((user, product), (rl, r2)) => math.pow((rl- r2), 2) 
}.reduce(_ + _)/ratesAndPreds.count 

println("Mean Squared Error = " + MSE) 


Spark MLlib 矩阵 向 量 


Spark MLlib 底层 的 向 量 、 和 矩阵 运算 使 用 了 Breeze 库 ，Breeze 库 提供 了 Vector/Matrix 的 实 
现 以 及 相应 计算 的 接口 (Linalg) 。 在 MLlib 里 面 同时 也 提供 了 Vector 和 Linalg 等 的 实现 [%-49 。 


5.2.1 Breeze 创建 函数 
在 使 用 Breeze 库 时 ， 需 要 导入 相关 包 : 


import breeze.linalg._ 


import breeze.numerics._ 


API 参看 http:/www.scalanlp.org/api/breeze/index.html#breeze.linalg.package。 Breeze 创建 
函数 操作 如 表 5-1 所 示 。 


表 5-1 Breeze Ts 
操作 名 称 Breeze 函数 对 应 Numpy 函数 


Ee, 0. i 0 
2 
全 0 和 矩阵 DenseMatrix.zeros[Double](2,3) 000000 Zeros((2.3)) 


全 0 向 量 DenseVector.zeros[Double](3) DenseVector(0.0,0.0,0.0) 
全 1 向 量 DenseVector.ones[Double](3) DenseVector(1.0,1.0,1.0) 


和 DenseVector.fill(3){1.0} DenseVector(1.0,1.0,1.0) ones(3)*1.0 
DenseVector.range(start,end,step), 
生成 随机 向 量 | Vector， ange tot ndaiery DenseVector(1,3,5,7,9) 





线性 等 分 向 量 

¢ 几 寺 产生 

Start 和 end 之 | DenseVector.linspace(start,end,numvals) 
间 的 N 点 行 矢 

量 ) 


1.00.00.0 
单位 矩阵 DenseMatr.eye[Double](3) 0.0 1.00.0 eye(3) 
0.00.01.0 
1.00.00.0 
对 角 和 矩阵 Diag(DenseVector(1.0,2.0,3.0)) 0.02.0 0.0 diag((1.0,2.0,3.0)) 
0.00.03.0 
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( 续 表 ) 
操作 名 称 Breeze 函数 输出 结果 对 应 Numpy 函数 


amay([[1.02.0]03.0.4.0]) 
array([1,2,3,4]) 


01 


DenseMatrix.tabulate(3,2) {case(ij) => i 


计 j} 


从 数组 创建 | new 
拢 DenseMatrix(2,3,array(11,12,13,21.22,23 
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5.2.2 ”Breeze 元 素 访问 
Breeze 元 素 访 问 如 表 5-2 所 示 。 


表 5-2 Breeze 元 素 访问 
操作 名 称 Breeze 函数 对 应 Numpy 函数 


指定 位 置 on la | 
a(l to 4), a(1 until 5).aslice(1.5 
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5.2.3 ”Breeze 元 素 操作 
Breeze 元 素 操作 如 表 5-3 所 示 。 
表 5-3 ”Breeze 元 素 操作 








操作 名 称 Breeze 函数 对 应 Numpy 函数 
调整 矩阵 形状 areshape(3 

和 矩阵 转 成 向 量 aflatten0 

复制 下 三 角 tril(a) 

复制 上 三 角 triu(a) 

和 矩阵 复制 [acopy | np.copy(a 

取 对 角 线 元 素 diagonal(a 

子 集 赋 数 值 a[1:4]=5.0 

子 集 赋 向 量 a[1:4]=[1.0 2.0 3.0 
和 矩阵 赋值 al2:4, 2:4] = 5.0 
箱 阵 列 赋 值 a(:3)=5 

垂直 连接 矩阵 ab 

横向 连接 矩阵 ab 

向 量 连接 ab 
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5.2.4 Breeze 数值 计算 函数 
Breeze 数值 计算 函数 如 表 5-4 所 示 。 


表 5-4 Breeze 数值 计算 函数 
操作 名 称 Breeze 函数 对 应 Numpy 函数 
| 元 率 刘 乘 | la | 
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5.2.5 “Breeze 求 和 函数 
Breeze 求 和 函数 如 表 5-5 所 示 。 


表 5-5 Breeze 求 和 函数 
操作 名 称 Breeze 函数 对 应 Numpy 函数 
sum(a, axis. TE 
对 角 线 元 素 和 
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5.2.6 ”Breeze 布尔 函数 
Breeze 布尔 函数 如 表 5-6 所 示 。 


a Breeze 布尔 函数 
操作 名 称 Breeze 函 对 应 Numpy 函数 


[iaaft Ja | 
| 元素 # 操 作 la 
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5.2.7 ”Breeze 线性 代数 函数 
Breeze 线性 代数 函数 如 表 5-7 所 示 。 


表 5-7 ”Breeze 线性 代数 函数 
操作 名 称 Breeze 函数 对 应 Numpy 函数 
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5.2.8 ”Breeze 取 整 函数 
Breeze 取 整 函数 如 表 5-8 所 示 。 
表 5-8 Breeze 取 整 函数 


操作 名 称 Breeze 函数 


舍 五 入 


取 正 数 


对 应 Numpy 函数 
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scala> abs (a) 


res79: breeze.linalg.DenseVector[Double] = DenseVector(1.2, 0.6, 2.3) 


5.2.9 Breeze 三 角 函 数 


Breeze 三 角 函 数 包括 : sin、sinh、asin、asinh cos、cosh、aco、acosh tan、tanh、atan、 
atanh atan2、sinc(x) 和 sincpi(x) 。 


5.2.10 ”BLAS 向 量 运算 

BLAS 按照 功能 被 分 为 三 个 级 别 : 

(1) Level 1: 矢量 -矢量 运算 ， 比 如 点 积 (ddot)、 加 法 和 数 乘 〈daxpy) 、 绝 对 值 的 和 
(dasum) 等 。 

(2) Level 2: 矩阵 -矢量 运算 ， 最 重要 的 函数 是 一 般 的 矩阵 向 量 乘 法 (dgemv) 。 

(3) Level3: 和 矩阵 -矩阵 运算 ， 最 重要 的 函数 是 一 般 的 和 矩阵 乘法 (dgemm) 。 

每 一 种 函数 操作 都 区 分 不 同 数据 类 型 〈 单 精度 、 双 精度 、 复 数 ) 。 





1. BLAS 向 量 一 一 向 量 运算 
BLAS 向 量 一 一 向 量 运 算 如 表 5-9 所 示 。 





表 5-9 BLAS 向 量 向 量 运算 





函数 说 明 


SDSDOT _| 扩展 精度 累积 的 点 积 
SNRM2 欧 氏 范 数 
SCNRM2 “| 欧 氏 范 数 











2. BLAS 和 矩阵 -向 量 运算 


(1) SGEMV 和 矩阵 向 量 乘法 。 

(2) SGBMYV 带 状 矩阵 向 量 乘法 。 
(3) SSYMYV 对 称 和 矩阵 向 量 乘法 。 

(4) SSBMV 对 称 带 状 矩阵 向 量 乘法 。 
(5) SSPMYV 对 称 填充 矩阵 向 量 乘法 。 
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(6) STRMYV 三 角 和 矩阵 向 量 乘法 。 

(7) STBMYV 三 角 带 状 和 矩阵 向 量 乘法 。 

(8) STPMV 三 角 填 充 矩 阵 向 量 乘法 。 

(9) STRSV 求解 三 角 和 矩阵 。 

(10) STBSV 求解 三 角 带 状 矩 阵 。 

(11) STPSYV 求解 三 角 填 充 和 矩阵 。 

(12) SGER A :=alpha*x*y’ +A。 

(13) SSYR A :=alpha*x*x” +A。 

(14) SSPR A := alpha*x*x”+A。 

(15) SSYR2 A :=alpha*x*y’” +alpha*y*x” +A。 
(16) SSPR2A:=alpha*x*y’” +alpha*y*x” 十 A。 


3. BLAS 和 矩 阵 一 一 和 矩 阵 运算 函数 脖子 胎 膊 裤子 
BLAS 和 矩阵 运算 函数 如 表 5-10 所 示 。 


表 5-10 BLAS 和 矩阵 一 一 矩阵 运算 
函数 说 明 
和 矩阵 乘法 
对 称 矩 阵 乘法 





5.3 Spark MLlib 线性 回归 算法 


5.3.1 线性 回归 算法 理论 基础 

在 统计 学 中 ， 线 性 回归 (Linear Regression) 是 利用 称 为 线性 回归 方程 的 最 小 平方 函数 对 
-个 或 多 个 自 变量 和 因 变 量 之 间 关 系 进行 建 模 的 一 种 回归 分 析 。 这 种 函数 是 一 个 或 多 个 称 为 
回归 系数 的 模型 参数 的 线性 组 合 [和 7。 
回归 分 析 中 ， 只 包括 一 个 自 变 量 和 一 个 因 变 量 ， 且 二 者 的 关系 可 用 一 条 直线 近似 表示 ， 
这 种 回归 分 析 称 为 一 元 线性 回归 分 析 。 如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变量 ， 且 因 
变量 和 自 变量 之 间 是 线性 关系 ， 则 称 为 多 元 线性 回归 分 析 。 

线性 回归 ， 对 于 初学 者 而 言 比较 难 理解 ， 其 实 换个 叫 法 〈 如 线性 拟 合 ) 可 能 就 能 理解 线 
性 回归 是 做 什么 的 了 ， 数 学 表达 式 如 下 : 


HP(xz)=ao+ao +ao +...a,x, +J(0) (5-1) 
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其 中 h(x) 为 预测 函数 ， at 天 1.2…Dxit( 天 1,.2…0) 为 估计 参数 ， 模 型 训练 的 目的 就 是 计算 出 
这 些 参数 的 值 。 
而 线性 回归 分 析 的 整个 过 程 可 以 简单 描述 为 如 下 三 个 步骤 : 


(1) 寻找 合适 的 预测 函数 ， 即 上 文中 的 h(x)， 用 来 预测 输入 数据 的 判断 结果 。 这 个 过 程 
是 非常 关键 的 ， 需 要 对 数据 有 一 定 的 了 解 或 分 析 ， 知 道 或 者 猜测 预测 函数 的 “大 概 ” 形 式 ， 
比如 是 线性 函数 还 是 非 线 性 函数 ， 若 是 非 线性 的 则 无 法 用 线性 回归 来 得 出 高 质量 的 结果 。 

(2) 构造 一 个 Loss 函数 (损失 函数 ) ， 该 函数 表示 预测 的 输出 (h) 与 训练 数据 标签 之 
间 的 偏差 ， 可 以 是 二 者 之 间 的 差 (h-y) 或 者 是 其 他 的 形式 〈 如 平方 差 开 方 ) 。 综 合 考虑 所 有 
训练 数据 的 “损失 ”， 将 Loss 求 和 或 者 求 平均 ， 记 为 Kb) 函数， 表示 所 有 训练 数据 预测 值 与 
实际 类 别 的 偏差 。 

(3) 显然 ，XA(9) 函数 的 值 越 小 表示 预测 函数 越 准确 〈 即 h 函数 越 准确 ) ， 所 以 这 一 步 需 
要 做 的 是 找到 .WO) 函数 的 最 小 值 。 找 函数 的 最 小 值 有 不 同 的 方法 ，Spark 中 采用 的 是 梯度 下 
降 法 stochastic gradient descent，SGD)。 





5.3.2 ”线性 回归 算法 
无 论 是 一 元 线性 方程 还 是 多 元 线性 方程 ， 可 统一 写成 如 下 的 格式 : 
h(x)=0°X (52) 
求 线性 方程 则 演变 成 了 求 方程 的 参数 人 7。 
1. 梯度 下 降 算 法 
为 了 得 到 目标 线性 方程 ， 我 们 只 需 确定 公式 (5-2〉 中 的 97， 同 时 为 了 确定 所 选 定 的 97 
效果 好 坏 ， 通 常情 况 下 ， 使 用 一 个 损失 函数 (loss function) 或 者 错误 函数 (error function) 来 评估 


AN 函数 的 好 坏 。 该 错误 函数 如 公式 (5-3) 所 示 。 前 面 乘 上 的 1/2 是 为 了 在 求 时 的 时 候 ， 这 个 系 
数 就 不 见 了 p3。 


J(0) =35",(%(*)-») (53) 


2. 批量 梯度 下 降 算法 

如 前 所 述 ， 求 多 的 问题 演变 成 了 求 X06) 的 极 小 值 问题 ， 这 里 使 用 梯度 下 降 法 。 而 梯度 下 
降 法 中 的 梯度 方向 由 X6) 对 9 的 偏 导 数 确定 ， 由 于 求 的 是 极 小 值 ， 因 此 梯度 方向 是 偏 导 数 的 
反方 向 9。 





0 
0, BT (5-4) 


公式 (5-4) 中 a 为 学 习 速 率 ， 当 a 过 大 时 ， 有 可 能 越过 最 小 值 ; 而 a 当 过 小 时 ， 容 易 造成 
友 代 次 数 较 多 ， 收 敛 速度 较 慢 。 假 如 数据 集中 只 有 一 条 样本 ， 所 以 公式 (5-4) 中 


dn 
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订 7O-a5aoO- 中 


-9- 攻 订 (人 9 (5-5) 


=(%( 四 - 攻 - 高 台 s -中 
=(h (x)-») 
就 演变 成 ， 
0,=0,+a(y h(x) (5-6) 


当 样本 数量 mm 不 为 1 时， 将 公式 (5 汶 中 /0) 由 公式 (5-3) 带 入 来 人 时， 那么 每 个 参 
J 


数 沿 梯度 方向 的 变化 值 由 公式 (5-7) 求 得 [7 。 
0,:=0, + (2 -hs (2 ) x (5-7) 
初始 时 07 可 设 为 0， 然 后 迭代 使 用 公式 (5-7) 计 算 8" 中 的 每 个 参数 ， 直 至 收敛 为 止 。 由 于 
每 次 迭代 计算 9 时， 都 使 用 了 整个 样本 集 ， 因 此 我 们 称 该 梯度 下 降 算 法 为 批量 梯度 下 降 算 法 
(batch gradient descent)Dl。 
3. 随机 梯度 下 降 算法 


当 样 本 集 数 据 量 m 很 大 时 ， 批 量 梯度 下 降 算 法 每 迭代 一 次 的 复杂 度 为 O(mn)， 复 杂 度 很 
高 。 因 此 ， 为 了 减少 复杂 度 ， 当 m 很 大 时 ， 更 多 时 候 使 用 随机 梯度 下 降 算法 (stochastic 
gradient descent)， 算 法 如 下 所 示 : 


loop{ 
fori=1l to m { 
0,:=0, +a(y® 一 jp [JR (for every 站 (3.8 
} 
} 


即 每 读 取 一 条 样本 ， 就 迭代 对 0" 进行 更 新 ， 然 后 判断 其 是 否 收 化 ， 若 没收 敛 ， 则 继续 读 取样 
本 进行 处 理 ， 如 果 所 有 样本 都 读 取 完毕 了 ， 则 循环 重新 从 头 开始 读 取 样本 进行 处 理 。 

这 样 兴 代 一 次 的 算法 复杂 度 为 O(n)。 对 于 大 数据 集 ， 很 有 可 能 只 需 读 取 一 小 部 分 数据 ， 
函数 X90) 就 收 化 了 。 比 如 样本 集 数 据 量 为 100 万 ， 有 可 能 读 取 几 千 条 或 几 万 条 时 ， 函 数 就 达 
到 了 收敛 值 。 所 以 当 数 据 量 很 大 时 ， 更 倾向 于 选择 随机 梯度 下 降 算 法 。 
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4. 最 小 二 乘法 
将 训练 特征 表示 为 万 矩阵 ， 结 果 表 示 成 y 向量， 仍然 是 线性 回归 模型 ， 误 差 函 数 不 变 。 
那么 9 可 以 直接 由 下 面 公式 得 出 
0=(X"X) xX (5-9) 


5.3.3 Spark MLlib Linear Regression 源码 分 析 


1. 线性 回归 算法 的 train 方法 
线性 回归 算法 的 train 方法 ， 由 LinearRegressionWithSGD 类 的 object 定义 了 train 函数 。 





Input 为 输入 样本 ，numiterations 为 迭代 次 数 ，stepSize 为 步 长 ，miniBatchFraction 为 迭代 
因子 。 创 建 一 个 LinearRegressionWithSGD 对 象 ， 初 始 化 梯度 下 降 算 法 。Run 方法 来 自 于 继承 
父 类 GeneralizedLinearAlgorithm， 实 现 方法 如 下 。 


2. LinearRegressionWithSGD 中 run 方法 的 实现 
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其 中 optimizeroptimize(data，initialWeightsWithIntercepb) 是 线性 回归 实现 的 核心 。 
oprimizer 的 类 型 为 GradientDescent，optimize 方法 中 主要 调用 GradientDescent 伴生 对 象 的 
runMiniBatchSGD 方法 ， 返 回 当 前 迁 代 产 生 的 最 优 特征 权重 向 量 。 

GradientDescentd 对 象 中 optimize 实现 方法 如 下 。 


3. optimize 实现 方法 
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在 optimize 方法 中 ， 调 用 了 GradientDescent.runMiniBatchSGD 方法 ， 其 
runMiniBatchSGD 实现 方法 如 下 : 
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runMiniBatchSGD 的 输入 、 输 出 参数 说 明 如 下 : 


Data: 样本 输入 数据 ， 格 式 (label, [feature values])。 
gradient: 梯度 对 象 ， 用 于 对 每 个 样本 计算 梯度 及 误差 。 
updater: 权重 更 新 对 象 ， 用 于 每 次 更 新 权重 。 
stepSize: 初始 步 长 。 
numlterations: 迭代 次 数 。 
regParam: 正则 化 参数 。 
miniBatchFraction: 迭代 因子 。 
@ ”返回 结果 (Vector, Array[Double]): 第 一 个 为 权重 ， 第 二 个 为 每 次 迭代 的 误差 值 。 
在 MiniBatchSGD 中 主要 实现 对 输入 数据 集 进行 欠 代 抽样 ， 通 过 使 用 LeastSquaresGradient 
作为 梯度 下 降 算法 ， 使 用 SimpleUpdater 作为 更 新 算法 ， 不 断 对 抽样 数据 集 进行 迭代 计算 从 而 找 出 
最 优 的 特征 权重 向 量 解 。 在 LinearRegressionWithSGD 中 定义 如 下 : 
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4. gradient & updater 


(1) gradient 
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(2) updater 


5. MLlib Linear Regression 实例 
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与 .入 spark MLIib 远 辑 回归 算法 


逻辑 回归 作为 分 类 算法 的 一 种 ， 在 互联 网 领域 中 的 预测 、 判 别 中 应 用 得 非常 广泛 ， 像 广 
告 投放 中 的 点 击 率 预 佑 、 推 荐 算法 中 的 模型 融合 等 。 本 节 简 要 介绍 逻辑 回归 的 算法 ， 以 及 在 
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Spark MLlib 中 的 实现 解析 591。 


5.4.1 逻辑 回归 算法 
逻辑 回归 其 实 是 一 个 分 类 问题 ， 此 类 问题 的 模型 训练 ， 基 本 上 分 为 3 步骤 ; 
(1) 第 一 步 要 寻找 假设 预测 函数 h， 构 造 的 假设 函数 为 : 


h(x)= g(0'x) = 





1 
(5-10) 
1+er4 
Logistic 函数 〈 或 称 为 Sigmoid 函数 ) ， 函 数 形式 为 : 
有 
l+e™ 





g(z)= (5-11) 


在 线性 回归 的 函数 基础 上 ， 加 上 一 个 Sigmoid 函数 进行 Norm， 把 函数 值 输出 在 0 到 1 的 
范围 内 ， 函 数 的 值 有 特殊 的 含义 ， 它 表示 结果 取 1 的 概率 ， 因 此 对 于 输入 x 分 类 结果 为 类 别 
1 和 类 别 0 的 概率 分 别 为 : 


P(y=1|x;0)=h, (x) 


P(y=0|x;0)=1-h,(x) (5-12) 
(2) 第 二 步 要 构造 损失 函数 J， 基于 最 大 似 然 估计 推导 出 : 
a 1 i (人 (0) 全 四 
7(0)=-=[ 2 logha(x°)+(1-y° )log(1-hx") ] ay 


1 
:hh =1+ 6 
县 中 人 je 





(3) 第 三 步 求 得 使 A0) 最 小 值 时 的 参数 6， 解 决 这 个 问题 的 做 法 是 随机 给 定 一 个 初始 值 
0， 通过 友 代 ， 在 每 次 迭代 中 计算 损失 函数 .6) 的 下 降 方向 并 更 新 9， 直 到 目标 函数 收敛 稳定 
在 最 小 点 。 

图 5-5 所 示 的 迭代 优化 算法 就 是 损失 函数 .Kb) 的 下 降 方向 的 计算 中。 
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Step 1: 令 迭代 次 数 上 ， 随 机 给 
定 初始 特征 权重 向 量 酚 


| 











Step 2: 三 片 1 








本 


Step 3: 计算 第 1 次 迭代 中 损失 函 
数 的 搜索 方向 D， 















征 权 重 向 量 











5-5 和 迭 代 优化 算法 计算 损失 函数 6) 的 下 降 方向 


在 实际 应 用 过 程 中 ， 为 了 增强 模型 的 泛 化 能 力 ， 防 止 我们 训练 的 模型 过 拟 合 ， 特 别 是 对 
于 大 量 的 稀 跑 特征 ， 模 型 复杂 度 比 较 高 ， 需 要 进行 降 维 ， 我 们 需要 保证 在 训练 误差 最 小 化 的 
基础 上 ， 通 过 加 上 正则 化 项 减 小 模型 复杂 度 。 在 逻辑 回归 中 ， 有 Li、Ls 进 行 正则 化 1。 
损失 函数 如 下 : 


1(0) -Fn (es)-n) + wi 


1 2=1 


在 损失 函数 里 加 入 一 个 正则 化 项 ， 正 则 化 项 就 是 权重 的 Li 或 者 Ls 范 数 乘 以 一 个 和， 用 来 


控制 损失 函数 和 了 


E 则 化 项 的 比重 。 直 观 地 理解 ， 首 先 防 止 过 拟 合 的 目的 就 是 防止 最 后 训练 出 





来 的 模型 过 分 地 依赖 某 一 个 特征 ， 当 最 小 化 损失 函数 的 时 候 ， 某 一 维度 很 大 ， 拟 合 出 来 的 函 
数值 与 真实 的 值 之 间 的 差距 很 小 ， 通 过 正则 化 可 以 使 整体 的 消耗 变 大 ， 从 而 避免 了 过 分 依赖 


某 一 维度 的 结果 。 


当然 加 正则 化 的 前 提 是 特征 值 要 进行 归 一 化 四 。 


LL 正则 化 假设 模型 参数 服从 高 斯 分 布 ，L2 正则 化 函数 比 Li 更 光滑 ， 所 以 更 容易 计算 ; Li 
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假设 模型 参数 服从 拉 普 拉 斯 分 布 ，Li 正则 化 具备 产生 稀 芷 解 的 功能 ， 从 而 具备 特征 的 能 力 。 
Li 的 计算 公式 : 
stepSize 


shrinkageVal = regParam* 一 天 
iter 


a stepSize stepSize 
weight := signum( weight — ‘adient)* max(0,0,abs(weight — ‘adient)— shrinkage Val 
gl ignum( weig, rh )* max( (weig, 7 ) ‘geVal) 


(5-15) 


使 用 了 Li regularization(R(w) = |wll) ， 利 用 soft-thresholding 方法 求解 ， 参 数 weight 更 
新 规则 参照 signum 符号 函数 ， 它 的 取 值 如 下 : 


p21 
signum(x)= 3 x=0 0 (5-16) 
x<0 -1 


使 用 了 Lz regularization (R(w) = 1/2 ||wll*2) ， 参 数 weights 更 新 规则 为 : 


weight := weight — 2 Size， (gradient + regParam * weight) CS:17) 
i 


ter 


5.4.2 Spark MLlib Logistic Regression 源码 分 析 
1. LogisticRegressionWithSGD 


Logistic 回归 算法 的 train 方法 ， 由 LogisticRegressionWithSGD 类 的 object 定义 了 train 函 
数 ， 在 train 函数 中 新 建 了 LogisticRegressionWithSGD 对 象 。 
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LogisticRegressionWithSGD 类 中 参数 说 明 : 


stepSize: 和 迭代 步 长 ， 默 认为 1.0。 

numlterations: 迭代 次 数 ， 默 认为 100。 

regParam: 正则 化 参数 ， 默 认 值 为 0.0。 

miniBatchFraction: 每 次 迭代 参与 计算 的 样本 比例 ， 默 认为 1.0。 
gradient: LogisticGradient()，Logistic 梯度 下 降 。 

updater: SquaredL2Updater()， 正 则 化 ，L2 范 数 。 

optimizer: GradientDescent(gradient, updater)， 梯 度 下 降 最 优化 计算 。 
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train 参数 说 明 : 


@ input: 样本 数据 ， 分 类 标签 lable 只 能 是 1.0 和 0.0 两 种 ，feature 为 double 类 型 。 
numlterations: 迭代 次 数 ， 默 认为 100。 

stepSize: 先 代 步 长 ， 默 认为 1.0。 

miniBatchFraction: 每 次 迭代 参与 计算 的 样本 比例 ， 默 认为 1.0。 

initialWeights: 初始 权重 ， 默 认为 0 向 量 。 


2. LogisticRegressionWithSGD 中 run 方法 的 实现 
run 方法 来 自 于 继承 父 类 GeneralizedLinearAlgorithm， 实 现 方法 如 下 。 
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其 中 optimizeroptimize(data，initialWeightsWithIntercepb 是 逻辑 回归 实现 的 核心 。 
oprimizer 的 类 型 为 GradientDescent ， optimize 方法 调用 GradientDescent 对 象 的 
runMiniBatchSGD 方法 ， 返 回 当前 迁 代 产生 的 最 优 特征 权重 向 量 。 
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3. GradientDescentd 对 象 中 optimize 实现 方法 


在 optimize 方法 中 ， 调 用 了 GradientDescent runMiniBatchSGD 方法 ， 其 runMiniBatchSGD 实 
现 方法 如 下 : 
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runMiniBatchSGD 的 输入 、 输 出 参数 说 明 : 


data: 样本 输入 数据 ， 格 式 (label, [feature values])。 

gradient: 梯度 对 象 ， 用 于 对 每 个 样本 计算 梯度 及 误差 。 
updater: 权重 更 新 对 象 ， 用 于 每 次 更 新 权重 。 

stepSize: 初始 步 长 。 

numlterations: 迭代 次 数 。 

regParam: 正则 化 参数 。 

miniBatchFraction: 和 迭代 因子 ， 每 次 迁 代 参与 计算 的 样本 比例 。 
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返回 结果 (Vectorn Array[Double])， 第 一 个 为 权重 ， 每 二 个 为 每 次 迭代 的 误差 值 。 

在 MiniBatchSGD 中 主要 实现 对 输入 数据 集 进行 帮 代 抽 样 ， 通 过 使 用 LogisticGradient 作 
为 梯度 下 降 算法 ， 使 用 SquaredL2Updater 作为 更 新 算法 ， 不 断 对 抽样 数据 集 进行 迭 代 计算 从 
而 找 出 最 优 的 特征 权重 向 量 解 。 在 LinearRegressionWithSGD 中 定义 如 下 : 


4. runMiniBatchSGD 方法 中 调用 了 gradient.compute、updater.compute 两 个 方法 
(1) gradient 
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(2) updater 
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与 .与 ”spark Muiib 朴素 贝 叶 斯 分 类 算法 


贝 叶 斯 公式 ， 或 者 叫做 贝 叶 斯 定理 ， 是 贝 叶 斯 分 类 的 基础 。 而 贝 叶 斯 分 类 是 一 类 分 类 算 
法 的 统称 ， 这 一 类 算法 的 基础 都 是 贝 叶 斯 公式 。 目 前 研究 较 多 的 4 种 贝 叶 斯 分 类 算法 有 : 
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Naive Bayes、TAN、BAN 和 GBN。 


5.5.1 朴素 贝 叶 斯 分 类 算法 
理工 科 的 学 生 在 大 学 应 该 都 学 过 概率 论 ， 其 中 最 重要 的 几 个 公式 中 就 有 贝 叶 斯 公式 一 
用 来 描述 两 个 条 件 概率 之 间 的 关系 ， 比 如 P(AIB) 和 P(BIA)。 如 何在 已 知事 件 A 和 B 分 别 发 生 
的 概率 和 事件 B 发 生 时 事件 A 发 生 的 概率 时 求 得 事件 A 发 生 时 事件 B 发 生 的 概率 ， 这 就 是 
贝 叶 斯 公式 的 作用 。 其 表述 如 下 : 

P(BIA)=P(4A|B)*xP(B)P(A) (5-18) 








朴素 贝 叶 斯 分 类 (Naive Bayes) 也 可 以 叫 NB 算法 。 其 核心 思想 非常 简单 ， 对 于 某 一 预 
测 项 ， 分 别 计算 该 预测 项 为 各 个 分 类 的 概率 ， 然 后 选择 概率 最 大 的 分 类 为 其 预测 分 类 。 就 好 
像 你 预测 一 个 娘 炮 是 女人 的 可 能 性 是 40%， 是 男人 的 可 能 性 是 41%， 那 么 就 可 以 判断 他 
是 男人 。 

Naive Bayes 的 数学 定义 如 下 : 

(1) 设 x={qa1,q2,…am} 为 一 个 待 分 类 项 ， 而 每 个 a; 为 x 的 一 个 特征 属性 。 

(2) 已 知 类 别 集合 C={y1wy2,.…yn} 。 

(3) 计算 xx 为 各 个 类 别 的 概率 : POxlo,POzbo, PConbo。 
(4) 如 果 POxD=max{POono,POzboD…POxbD}， 则 x 的 类 别 为 yx。 

如 何 获 取 第 4 步 中 的 最 大 值 ， 也 就 是 如 何 计 算 第 3 步 中 的 各 个 条 件 概率 最 为 重要 。 可 以 
采用 如 下 做 法 : 

(1) 获取 训练 数据 集 ， 即 分 类 已 知 的 数据 集 。 
(2) 统计 得 到 在 各 类 别 下 各 个 特征 属性 的 条 件 概率 估计 ， 即 : 


Plally1),P(a2ly1),.., Planlyl);P(ally?2),P(a2ly2),..., Planly2);..;P(ally), Pla2lyn),.…,P(amlyn)， 其 
中 的 数据 可 以 是 离散 的 ， 也 可 以 是 连续 的 。 


如 果 各 个 特征 属性 是 条 件 独 立 的 ， 则 根据 贝 叶 斯 定理 有 如 下 推导 : 


P(x1y)P(») 


P(y|x)= P(x) 


(5-19) 


对 于 某 x 来 说 ， 分 母 是 固定 的 ， 所 以 只 要 找 出 分 子 最 大 的 即 为 条 件 概 率 最 大 的 。 又 因为 
各 特征 属性 是 条 件 独立 的 ， 所 以 有 : 


P(x|y)P(»)=P(a 1y)P(a dy)...P(a, yi)P(y)=P(y TI, Pa ly) (5-20) 
在 Spark 源码 中 的 计算 概率 P 是 在 NaiveBayes 类 下 面 的 run 方法 下 ， 源 码 如 下 (Java): 


def run(data: RDD[LabeledPoint]): NaiveBayesModel = { 
val requireNonnegativeValues: Vector => Unit = (v: Vector) => { 
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对 于 类 别 集合 C= fy1,y2,.…yo}， 它 的 先 验 概率 是 : 
je (5-21) 
numDocuments + numLabels * lambda 


@ lamda: 平滑 因子 。 
@ numDoucuments: 总 的 次 数 。 
@ numlaebls: 类 别 数 。 


其 中 thetaLogDenom 有 两 种 模式 : 
(1) 多 项 式 模式 : 


(2) 伯 努 利 模式 : 


n 为 解释 类 别 六 的 总 数 ， 那 么 theta(i)0): 


GE sumTermFregqs( j) + lambda 
江 直 吉 sumTermFreqs.values.sum + numFeatures * lambda 
theta()(/) =1og(P(a, /»))) = 9 
jog sumTermFregqs( j) + lambda 
n+2.0*lambda 


(5-22) 


5.5.2 ”朴素 贝 叶 斯 Spark MLlib 源码 
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与 .6 spark MLIib 决策 树 算法 


决策 树 是 常用 的 分 类 算法 之 一 ， 其 对 于 探索 式 的 知识 发 现 往往 有 较 好 的 表现 。 决 策 树 原 
理 十 分 简单 ， 可 处 理 大 维度 的 数据 ， 不 用 预先 对 本 型 的 特征 有 所 了 解 这 些 特性 使 得 决策 树 
被 广泛 使 用 。 决 策 树 采 用 贪心 算法 ， 其 建立 过 程 同 样 需要 训练 数据 。 决 策 树 的 核心 问题 是 决 
策 树 分 支 准则 的 确定 ， 以 及 分 裂 点 的 确定 。 


5.6.1 决策 树 算法 

决策 树 作为 一 种 分 类 回归 算法 ， 在 处 理 非 线性 、 特 征 值 缺 少 的 数据 方面 有 很 多 的 优势 ， 
能 够 处 理 不 相干 的 特征 ， 并 且 对 分 类 的 结果 通过 树 的 方式 有 比较 清晰 的 结构 解释 ， 但 是 容易 
过 拟 合 ， 针 对 这 个 问题 ， 可 以 采取 对 树 进 行 剪 枝 的 方式 ， 还 有 一 些 融合 集成 的 解决 方案 ， 比 
如 随机 森林 (RandomForest) 、GBDT (Gradient Boost Decision Tree) 等 。 

模型 的 训练 过 程 其 实 是 决策 树 的 构造 过 程 ， 它 采用 自 顶 向 下 的 递归 方式 ， 在 决策 树 的 内 
部 结 点 进行 属性 值 的 比较 ， 并 根据 不 同 的 属性 值 判断 从 该 结 点 向 下 分 支 ， 进 行 递归 划分 ， 直 
到 满足 一 定 的 终止 条 件 〈 可 以 进行 自 定 义 ) ， 其 中 叶 结 点 是 要 学 习 划分 的 类 。 在 当前 节点 用 
哪个 属性 特征 作为 判断 进行 切 分 〈 也 叫 分 裂 规 则 ) ， 取 决 于 切 分 后 节点 数据 集合 中 的 类 别 
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(分 区 ) 的 有 序 〈 纯 ) 程度 ， 划 分 后 的 分 区 数据 越 纯 ， 那 么 当前 分 裂 规则 也 越 合适 。 衡 量 节 
点 数据 集合 的 有 序 无 序 性 ， 有 焙 、 基 尼 〈Gini) 、 方 差 3 种 ， 其 中 粹 和 Gini 是 针对 分 类 的 ， 
方差 是 针对 回归 的 轩 。 两 种 杂质 的 分 类 方法 〈Gini 和 焙 ) 和 测量 回归 (方差 ) 如 表 5-11 所 示 。 

表 5-11 两 种 杂质 的 分 类 方法 Gini 和 业 ) 和 测量 回归 (方差) 


Impur ity [iE Description 








万 s the frequency of label i at a node and C is the 


C 
ini i i lasssificati (1—£ 
Gini impurity | Classsification > 大 ( 三 ) wribet of wise absls 





iis the frequency of label i at a node and C is the 
-flog(/;) i quency i 


Entropy Classsification nben ol fie dbl 


i 


C 
=1 











> yi is label for an instance, N is the Mmber of 
Variance Regression > 站 
instances and J is the mean given by 一 2 yi 
二 和 


信息 炳 是 信息 论 中 的 基本 概念。 信息 论 是 C.E.Shannon 于 1948 年 提出 并 由 此 发 展 起 来 
的 ， 主 要 用 于 解决 信息 传递 过 程 中 的 问题 ， 也 称 为 统计 通信 理论 。 信 息 论 认为 : 信息 是 用 来 
消除 随机 不 确定 性 的 ， 信 息 量 的 大 小 可 由 所 消除 的 不 确定 大 小 来 计量 。 


炳 代表 集合 的 无 序 性 的 参数 ， 炉 越 大 ， 代 表 越 无 序 、 越 不 纯 。 和 的 公式 如 下 : 


C 
Entropy(S)= >-Plog, P (5-23) 
i=] 
其 中 C 表示 类 别 ， 是 样本 集合 中 属于 类 别 ;的 概率 。 
在 决策 树 分 类 中 ， 一 般 是 用 信息 增益 infoGain 来 作为 决策 树 节点 特征 属性 划分 的 依据 ， 
采用 使 得 信息 增益 最 大 的 属性 作为 数据 划分 的 度量 依赖 。 信 息 增益 infoGain 定义 如 下 : 


Gain(S, A) = Entropy(S)— bp llapy S,) (5-24) 


vey (4A) | 


其 中 K4) 代 表 属 性 4 的 分 区 ，S 代表 样本 集合 ，& 是 8 中 属性 4 的 值 属于 v 分 区 的 样本 





集合 。 
决策 树 的 算法 实现 在 学 术 界 有 ID3、C4.5、CART 等 ， ID3 采用 信息 增益 作为 属性 选择 
的 度量 ， 参 见 上 面 的 Gain， 这 种 方式 的 一 个 缺点 是 在 计算 信息 增益 时 ， 倾 向 于 选择 具有 大 量 
值 的 属性 ， 因 此 提出 了 C4.5 的 基于 信息 增益 率 的 度量 ， 而 CART 使 用 基尼 (Gini) 指数 作为 
属性 选择 的 度量 ， 这 些 算法 之 间 的 差别 主要 包括 在 训练 创建 决策 树 过 程 中 如 何 选择 属性 特 
征 ， 以 及 剪 枝 的 机 制 处 理 。 

Spark MLlib 对 决策 树 提供 了 二 元 以 及 多 label 的 分 类 以 及 回归 的 支持 ， 支 持 连续 型 和 离 
散 型 的 特征 变量 。 这 里 的 决策 树 是 一 颗 二 叉 树 ， 因 此 信息 增益 infoGain 就 为 : 
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IS, SS 
Gain(S, A)= Entropy(S)— lew, Bwoms (5-25) 


MLlib 中 的 bin 和 split，split 为 切割 点 ， 对 应 二 叉 的 决策 树 ; bin 为 桶 或 者 箱子 数 ， 一 个 
split 把 数据 集 划 分 成 2 个 桶 ， 所 以 bin 是 split 的 2 倍 。 
在 决策 树 的 训练 时 ， 需 要 两 个 重要 的 参数 : 


@ maxBins: 每 个 特征 分 裂 时 ， 最 大 划分 ( 桶 ) 数 量 。 
@ maxDepth: 树 的 最 大 高 度 。 


在 MLlib 中 ， 基 本 的 样本 训练 决策 树 的 构建 流程 为 : 寻找 所 有 特征 的 可 能 的 划分 split 以 
及 桶 信息 bin， 针 对 每 次 划分 split， 在 spark executors 上 计算 每 个 样本 应 该 属于 哪 一 个 bin， 
后 聚合 每 一 个 bin 的 统计 信息 ， 在 Drivers 上 通过 这 些 统 计 信 息 计算 每 次 split 的 信息 增益 ， 并 
选择 一 个 信息 增益 最 大 的 分 割 split， 按 照 该 split 对 当前 节点 进行 分 割 ， 直 到 满足 终止 条 件 。 

为 了 防止 过 拟 合 ， 需 要 考虑 剪 枝 ， 这 里 采用 的 是 前 向 剪 枝 ， 当 任 一 以 下 情况 发 生 ， 
MLlib 的 决策 树 节点 就 终止 划分 ， 形 成 叶子 节点 。 


树 高 度 达到 maxDepth: 


@ minInfoGain， 当 前 节点 的 所 有 属性 分 割 带 来 的 信息 增益 都 比 这 个 值 要 小 。 
@ ”minInstancesPerNode， 需 要 保证 节点 分 割 出 的 左右 子 节 点 的 最 少 的 样本 数量 达到 这 
个 值 。 


停止 准则 : 当 树 停止 建设 〈 添 加 新 的 节点 ) 时 ， 确 定 调整 这 些 参数 ， 保持 测试 数据 来 避 
免 过 拟 合 验证 。 
@。 MAXDEPTH: 一 棵 树 的 最 大 深度 。 深 树 更 具有 表现 力 (可 能 允许 更 高 的 精度 ) ， 
但 也 更 容易 过 度 拟 合 。 
@ mininstancespernode: 一 个 节点 被 分 裂 ， 它 的 每 一 个 儿子 节点 都 必须 接受 至 少 这 个 数 
量 的 训练 实例 。 因 为 经 常 比 个 体 树木 训练 更 深 ， 所 以 常用 随机 森林 。 
@ mininfogain: 一 个 节点 将 进一步 分 裂 必 须 在 信息 增益 上 提高 。 


可 调 参数 : 小 心 保持 的 试验 数据 ， 以 避免 过 拟 合 验证 调整 。 


@ maxBins: 离散 化 连续 属性 算法 时 ， 使 用 一 定数 量 箱 数 。 

@ maxMemoryInMB: 用 于 收集 足够 的 数据 存储 量 。 

@ subsamplingRate: 用 于 学 习 的 决策 树 训练 数据 的 分 数 。 培 养 一 个 决策 树 ， 这 个 参数 
是 有 用 的 ， 因 为 训练 实例 的 数量 一 般 不 是 主要 的 制约 因素 。 

@ impurity: 杂质 用 于 选择 候选 分 审 ， 这 一 措施 必须 匹配 算法 参数 。 

缓存 和 检查 点 : 


@ useNodeIdCache: 如 果 设置 为 true， 该 算法 将 避免 过 流 模 型 ( 树 或 树林 ) 减少 每 个 
迭代 的 执行 者 通信 代价 。 
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@ checkpointDir: 检查 点 节点 ID 缓存 RDDS 目录 。 
@ checkpointInterval: 检查 点 节点 ID 缓存 RDDS 频率 。 设 置 太 低 ， 会 导致 写 HDFS 额 
外 的 开销 太 高 ; 如 果 执 行 失败 ，RDD 需要 重新 计算 问题 。 


5.6.2 ”决策 树 实例 


1. 分 类 


下 面 的 示例 演示 如 何 加 载 libsvm 数据 文件 ， 解析 为 RDDlabeledpoint， 然 后 利用 决策 树 
进行 分 类 ，Gini 作为 杂质 测量 和 最 大 树 深度 为 5 测试 误差 来 衡量 算法 的 准确 性 。 


(1) Scala 
决策 树 文档 和 文档 在 API 的 细节 。 
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(2) Java 
决策 树 DecisionTree Java docs 和 DecisionTreeModel Java docs 文档 在 API 的 细节 。 
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(3) Python 
DecisionTree Python docs 和 DecisionTreeModel Python docs 文档 在 API 的 细节 。 


2. 回归 
下 面 的 示例 演示 如 何 加 载 LIBSVM data 文件 ， 解 析 为 RDD of LabeledPoint， 然 后 使 用 决 
策 树 的 方差 作为 执行 回归 措施 。 平 均 平 方 误差 (MSE) 计算 最 后 评价 拟 合 优 度 检验 。 
(1) Scala 
DecisionTree Scala docs 和 DecisionTreeModel Scala docs 文档 在 API 的 细节 。 
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(2) Java 
DecisionTree Java docs 和 DecisionTreeModel Java docs 文档 在 API 的 细节 。 
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(3) Python 
DecisionTree Python docs 和 DecisionTreeModel Python docs 文档 在 API 的 细节 。 
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5. 7 Spark MLlib KMeans 聚 类 算法 


聚 类 算法 常 被 用 于 数据 量 非常 大 的 应 用 中 。 我 们 都 知道 ， 机 器 学 习 算法 大 体 分 为 三 类 : 
监督 学 习 (supervised learning) 、 无 监督 学 习 (unsupervised learning) 和 半 监 督学 习 (semi- 
supervised learning) 。 

监督 学 习 是 指 我 们 利用 带 有 类 别 属性 标注 的 数据 去 训练 、 学 习 ， 用 于 预测 未 知 数据 的 类 
别 属性 。 例 如 ， 根 据 用 户 之 前 的 购物 行为 去 预测 用 户 是 否 会 购买 某 一 商品 。 常 用 的 算法 有 决 
策 树 、 支 持 向 量 机 SYM、 材 素 贝 叶 斯 分 类 器 、K- 近 邻 算法 KNN、 线 性 回归 和 人 逻辑 回归 等 。 

无 监督 学 习 是 指 在 无 人 工 干预 的 情况 下 将 数据 按照 相似 程度 划分 ， 而 聚 类 算法 就 是 非常 
典型 的 无 监督 学 习 方 法 ， 通 常 要 处 理 的 数据 没有 标签 信息 ， 可 以 通过 计算 数据 之 间 的 相似 性 
来 自动 划分 类 别 [sq 。 














5.7.1 KMeans 聚 类 算法 

K-Means 算法 的 思想 是 初始 随机 给 定 K 个 簇 中心 ， 按 照 距离 最 近 原 则 把 待 分 类 的 样本 点 
分 到 各 个 簇 ， 然 后 按 平均 法 重新 计算 各 个 马 的 质心 ， 从 而 确定 新 的 秘 心 ， 和 迭代 计算 ， 直 到 艇 
心 的 移动 距离 小 于 某 个 给 定 的 误差 值 。 使 用 算法 描述 语言 ， 只 要 4 个 步骤 : 

(1) 任意 选择 K 个 点 作为 初始 聚 类 中 心 。 

(2) 计算 每 个 样本 点 到 聚 类 中 心 的 距离 ， 将 每 个 样本 点 划分 到 离 该 点 最 近 的 聚 类 中 去 。 

(3) 计算 每 个 聚 类 中 所 有 点 的 坐标 平均 值 ， 并 将 这 个 平均 值 作为 新 的 聚 类 中 心 。 

(4) 反复 执行 (2) (3) ， 直 到 聚 类 中 心 的 移动 小 于 某 误差 值 或 者 聚 类 次 数 达到 要 求 为 止 。 

这 里 计算 距离 的 方法 通常 是 计算 欧 几 里 得 距离 ， 假 设 中 心 点 center 是 (x1, ym)， 需 要 计算 
的 样本 点 point 是 Co, y2)。 

另外 ， 给 出 损失 函数 (Cost Function) ， 每 一 次 选取 好 新 的 中 心 点 ， 我 们 就 要 计算 一 下 
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当前 选 好 的 中 心 点 损失 为 多 少 ， 这 个 损失 代表 着 偏 移 量 ， 越 大 说 明 当前 聚 类 的 效果 越 差 ， 计 
算 公 式 称 为 《Within-Cluster Sum of Squares, WCSS) : 


LO=2>>h -cl (5-26) 


其 中 , 大 表示 某 一 对 象 ，ck 表示 该 对 象 所 属 类 别 的 中 心 点 。 整 个 式 子 的 含义 就 是 对 各 个 
类 别 下 的 对 象 ， 求 对 象 与 中 心 点 的 欧式 距离 的 平方 ， 把 所 有 的 平方 求 和 就 是 Z(O)。 


5.7.2 ”Spark MLlib KMeans 源码 分 析 





228 


第 5 章 Spark MLlib 机 器 学 习 算 法 实现 








云 计算 环境 下 Spark 大 数据 处 理 技术 与 实践 》 





第 5 章 Spark MLlib 机 器 学 习 算 法 实现 








云 计算 环境 下 Spark 大 数据 处 理 技术 与 实践 十 





第 5 章 ”Spark MLlib 机 器 学 








在 上 面 findClosest 方法 中 有 两 行 黑体 字 代 码 ， 如 果 中 心 点 center 是 (a1,b1)， 需 要 计算 的 
点 point 是 (qz,b;)， 那 么 lowerBoundOfS-qDist 是 : 


(WarR yat) ee 


如 下 是 展开 式 ， 第 二 个 是 真正 计算 欧式 距离 时 的 除去 开平 方 的 公式 。 在 查找 最 短 距离 的 
时 候 无 须 计 算 开 方 ， 因 为 只 需要 计算 出 开 方 里 面 的 式 子 就 可 以 进行 比较 了 ，MLlib 也 是 这 样 


做 的 。 
(Na +B -NG = 0 +h + th 2a + h(a +b) 


(a a) +(b -bh) =a +h +a +h 2a +hb,) 


在 进行 距离 比较 的 时 候 ， 先 计算 很 容易 计算 的 lowerBoundOfSqDist， 如 果 
lowerBoundOfSqDist 都 不 小 于 之 前 计算 得 到 的 最 小 距离 bestDistance， 那 真正 的 欧式 距离 也 不 
可 能 小 于 bestDistance 了 ， 因 此 这 种 情况 下 就 不 需要 去 计算 欧式 距离 ， 省 去 很 多 计算 工作 。 

如 果 lowerBoundOfSqDist 小 于 bestDistance ， 则 进行 距离 的 计算 ， 调 用 


(5-28) 
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fastSquaredDistance， 这 个 方法 将 调用 MLUtils.Scala 里 面 的 fastSquaredDistance 方法 ， 计 算 真 
正 的 欧式 距离 ， 代 码 如 下 : 
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fastSquaredDistance 方法 会 先 计算 一 个 精度 ， 有 关 精 度 的 计算 val precisionBoundl = 2.0 * 
EPSILON * sumSquaredNorm / normDiff* normDiff+ EPSILON)， 如 果 在 精度 满足 条 件 的 情况 
下 ， 欧 式 距 离 sqDist = sumSquaredNorm - 2.0 * vl.dot(v2)，sumSquaredNorm 即 为 
二 民 二 外 十 习 ，2.0 * v1.dot(v2) 即 为 2(aia, +bb,) 。 这 也 是 之 前 将 norm 计算 出 来 的 好 
处 。 如 果 精 度 不 满足 要 求 ， 则 进行 原始 的 距离 计算 公式 (a 一,》+(4 一 bb ， 即 调用 
‘Vectors.sqdist(v1, v2)。 


5.7.3 ”MLlib KMeans 实例 


1. 数据 
数据 格式 为 : 特征 1 特征 2 特征 3。 
oo00000 
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5.8 Spark MLlib FPGrowth 关联 规则 算法 


5.8.1 基本 概念 

关联 规则 挖掘 的 一 个 典型 例子 是 购物 篮 分 析 。 关 联 规则 研究 有 助 于 发 现 交 易 数 据 库 中 不 
同 商品 (项 ) 之 间 的 联系 ， 找 出 顾客 购买 行为 模式 ， 如 购买 了 某 一 商品 对 购买 其 他 商品 的 影 
响 ， 分 析 结 果 可 以 应 用 于 商品 货架 布局 、 货 存 安排 以 及 根据 购买 模式 对 用 户 进行 分 类 。 

关联 规则 的 相关 术语 如 下 : 

(1) 项 与 项 集 

这 是 一 个 集合 的 概念 ， 在 一 篮子 商品 中 的 一 件 消费 品 即 为 一 项 ltem》， 则 若干 项 的 集 
合 为 项 集 ， 如 {啤酒 ， 尿 布 } 构 成 一 个 二 元 项 集 。 
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(2) 关联 规则 

一 般 表示 的 形式 ，X 为 先决 条 件 ，Y 为 相应 的 关联 结果 ， 用 于 表示 数据 内 隐 含 的 关联 
性 。 如 : 表示 购买 了 尿布 的 消费 者 往往 也 会 购买 啤酒 。 关 联 性 强度 如 何 ， 由 三 个 概念 一 一 支 
持 度 、 置 信 度 、 提 升 度 来 控制 和 评价 。 例 : 有 10000 个 消费 者 购买 了 商品 ， 其 中 购买 尿布 
1000 个 ， 购 买 啤酒 2000 个 ， 购 买 面包 500 个 ， 同 时 购买 尿布 和 啤酒 800 个 ， 同 时 购买 尿布 
和 面包 100 个 。 

(3) 支持 度 (Support) 

支持 度 是 指 在 所 有 项 集中 { 好 出 现 的 可 能 性 ， 即 项 集中 同时 含有 筷 和 工 的 概率 。 该 指 
标 作为 建立 强 关 联 规则 的 第 一 个 门槛 ， 衡 量 了 所 考察 关联 规则 在 “ 量 ” 上 的 多 少 。 通 过 设 定 
最 小 阔 值 Cminsup) ， 剔 除 “ 出 镜 率 ” 较 低 的 无 意义 规则 ， 保 留 出 现 较为 频繁 的 项 集 所 隐 含 
的 规则 。 

设 定 最 小 阔 值 为 5%， 由 于 { 尿 布 ， 啤 酒 } 的 支持 度 为 800/10000=8%， 满 足 基 本 输入 要 
求 ， 成 为 频繁 项 集 ， 保 留 规则 ， 而 { 尿 布 ， 面 包 } 的 支持 度 为 100/10000=1%， 被 剔除 。 


(4) 置信 度 〈Confidence) 

置信 度 表 示 在 先决 条 件 开发 生 的 条 件 下 ， 关 联结 果 了 发 生 的 概率 。 这 是 生成 强 关 联 规则 
的 第 二 个 门槛 ， 衡 量 了 所 考察 的 关联 规则 在 “ 质 ” 上 的 可 靠 性 。 相 似 的， 我 们 需要 对 置信 度 
设 定 最 小 阔 值 (mincon) 来 实现 进一步 筛选。 具体 的 ， 当 设 定 置 信 度 的 最 小 阔 值 为 70% 时 ， 
置信 度 为 800/1000=80%， 而 置信 度 为 800/2000=40%， 被 剔除 。 


(5) 提升 度 Uift) 
提升 度 表示 在 含有 XX 的 条 件 下 同时 含有 了 的 可 能 性 与 没有 XX 这 个 条 件 下 项 集中 含有 了 的 
可 能 性 之 比 ， 公 式 为 confidence(artichok => cracker)/support(cracker) = 80%/50% = 1.6。 该 指标 
与 置信 度 同 样 衡 量规 则 的 可 靠 性 ， 可 以 看 作 是 置信 度 的 一 种 互补 指标 。 


5.8.2 ”FPGrowth 算法 

FP-Growth〈 频 繁 模式 增长 ) 算法 是 韩 家 炜 老师 在 2000 年 提出 的 关联 分 析 算法 ， 它 采取 
如 下 分 治 策略 : 将 提供 频繁 项 集 的 数据 库 压 缩 到 一 棵 频繁 模式 树 〈FP-Tree) ， 但 仍 保留 项 集 
关联 信息 。 该 算法 和 Apriori 算法 最 大 的 不 同 有 两 点 : 第 一 ， 不 产生 候选 集 ， 第 二 ， 只 需要 两 
次 遍历 数据 库 ， 大 大 提高 了 效率 。 


1. 构造 FP- 树 


(1) 扫描 事务 数据 库 D 一 次 。 收 集 频 繁 项 的 集合 F 和 它们 的 支持 度 。 对 FF 按 支 持 度 降 
序 排序 ， 结 果 为 频繁 项 表 工 。 

(2) 创建 FP- 树 的 根 结 点 ， 以 “null” 标 记 它 。 对 于 D 中 每 个 事务 Trans， 执 行 下 面 操 
作 : 选择 Trans 中 的 频繁 项 ， 并 按 工 中 的 次 序 排序 。 设 排序 后 的 频繁 项 表 为 [p | P]， 其 中 , p 
是 第 一 个 元 素 ， 而 P 是 剩余 元 素 的 表 。 调 用 insert_tree([p | P], 刀 。 该 过 程 执行 情况 如 下 : 如 
果 了 有 子女 W， 使 得 Nitem-name = P.item-name， 则 N 的 计数 增加 1; 否则 创建 一 个 新 节点 
N， 将 其 计数 设置 为 1， 链 接 到 它 的 父 节 点 T， 并 且 通 过 节点 链 结 将 其 链接 到 具有 相同 item- 
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name 的 节点 。 如 果 尸 非 空 ， 递 归 地 调用 insert_tree(P, N)。 


2. FP- 树 的 挖掘 
通过 调用 FP_growth(FP_tree, null) 实 现 。 该 过 程 实现 如 下 : 





3. FP-Growth 算法 构造 FP- 树 


(1) 事务 数据 库 建立 
原始 事务 数据 库 如 表 5-12 所 示 。 


表 512 原始 事务 数据 库 





扫描 事务 数据 库 得 到 频繁 1- 项 目 集 F: 


li BB 
6 7 6 2 2 


定义 minsup=20%， 即 最 小 支持 度 为 2， 重 新 排列 F: 


2 1 B HBH 5 
7 6 6 2 2 
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这 样 ， 重 新 调整 事务 数据 库 如 表 5-13 所 示 。 





表 5-13 重新 调整 事务 数据 库 
1tems 
I2,I1I5 
DI4 
DDB3 
DD,T1,I4 











I113 
IT113 


(2) 创建 根 节点 和 频繁 项 目 表 ， 如 图 5-6 所 示 。 


[可 
| 


图 5-6 创建 根 节点 和 频繁 项 目 表 
(3) 加 入 第 一 个 事务 (12,11,15)， 如 图 5-7 所 示 。 


I | 7 














图 5-7 加 入 第 一 个 事务 (12,11,15) 
(4) 加 入 第 二 个 事务 (12,14)， 如 图 5-8 所 示 。 

















5-8 ”加 入 第 二 个 事务 (12,14) 
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(5) 加 入 第 三 个 事务 (12,13)， 如 图 5-9 所 示 。 








图 5-9 ”加 入 第 三 个 事务 (12,13) 


以 此 类 推 加 入 第 5、6、7、8、9 个 事务 。 
(6) 加 入 第 9 个 事务 (I2,11,13)， 如 图 5-10 所 示 。 


tem-name |Node-head 


| 一- 
| 二 = 
下 | 一- 
EE EE 
区 -| = 





5-10 加 入 第 9 个 事务 (2.I1.I3) 


4. FP-Growth 算法 FP- 树 挖掘 


FP- 树 建 好 后 ， 就 可 以 进行 频繁 项 集 的 挖掘 ， 挖 掘 算法 称 为 FpGrowth (Frequent Pattern 
Growth) 算法 ， 挖 掘 从 表 头 header 的 最 后 一 个 项 开始 ， 以 此 类 推 。 本 文 以 I5 为 例 进 行 挖 
气 。 

对 于 15， 得 到 条 件 模 式 基 :，<(2,11:1)>、<I2,11,13:1>， 构 造 条 件 FP-tree， 如 图 5-11 所 示 。 


一 _ 


5-11 构造 条 件 FP-tree 


得 到 I5 频繁 项 集 : {{12,15:2},{I1,15:2},{12,11,I15:2}}，I4、1I1 的 挖掘 与 15 类 似 ， 条 件 FP- 
树 都 是 单 路 径 。 
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5.8.3 ”Spark MLlib FPGrowth 源码 分 析 
FPGrowth 源码 包括 : FPGrowth、FPTree 两 部 分 。 


@ FPGrowth 中 包括 : run 方法 、genFreqltems 方法 、genFreqltemsets 方法 、 
genCondTransactions 方法 。 

@ FPTree 中 包括 : add 方法 、merge 方法 、project 方法 、getTransactions 方法 、extract 
方法 。 
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5.9 Spark MLlib 协同 过 滤 推荐 算法 


5.9.1 协同 过 滤 概 念 

协同 过 滤 常 常 被 用 于 分 辩 某 位 特定 顾客 可 能 感 兴趣 的 东西 ， 这 些 结论 来 自 于 对 其 他 相似 
顾客 对 哪些 产品 感 兴趣 的 分 析 。 协 同 过 滤 以 其 出 色 的 速度 和 健壮 性 ， 在 全 球 互联 网 领域 炙 手 
可 热 。 

协同 过 滤 推 荐 (Collaborative Filtering recommendation) 是 在 信息 过 滤 和 信息 系统 中 正 迅 
速成 为 一 项 很 受 欢迎 的 技术 。 与 传统 的 基于 内 容 过 滤 直 接 分 析 内 容 进行 推荐 不 同 ， 协 同 过 滤 
分 析 用 户 兴 趣 ， 在 用 户 群 中 找到 指定 用 户 的 相似 用 户 ， 综 合 这 些 相似 用 户 对 某 一 信息 的 评 
价 ， 形 成 系统 对 该 指定 用 户 对 此 信息 的 喜好 程度 预测 g- 约 。 与 传统 文本 过 滤 相 比 ， 协 同 过 波 
有 下 列 优点 : 

@ ”能 够 过 滤 难 以 进行 机 器 自动 基于 内 容 分 析 的 信息 ， 如 艺术 品 、 音 乐 。 

@ ”能 够 基于 一 些 复杂 的 ， 难 以 表达 的 概念 (信息 质量 、 品 位 ) 进行 过 滤 。 

@ ”推荐 的 新 额 性 。 


正 因 为 如 此 ， 协 同 过 滤 在 商业 应 用 上 也 取得 了 不 错 的 成 绩 。Amazon 、CDNow、 
MovieFinder 都 采用 了 协同 过 滤 的 技术 来 提高 服务 质量 。 也 存在 缺点 : 
@ ”用户 对 商品 的 评价 非常 稀 下 ， 这 样 基于 用 户 的 评价 所 得 到 的 用 户 间 的 相似 性 可 能 不 
准确 ( 即 稀 跻 性 问题 ) 。 
@。 随 着 用 户 和 商品 的 增多 ， 系 统 的 性 能 会 越 来 越 低 。 
@ ”如 果 从 来 没有 用 户 对 某 一 商品 加 以 评价 ， 则 这 个 商品 就 不 可 能 被 推荐 ( 即 最 初评 价 
问题 ) 。 


通常 ， 协 同 过 滤 算 法 按照 数据 使 用 ， 可 以 分 为 : 
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@ 基于 用 户 (UserCF ) 。 
@ 基于 商品 (ItemCF) 。 
@ 基于 模型 (ModelCF ) 。 


按照 模型 ， 可 以 分 为 : 

@ 最 近邻 模型 : 基于 距离 的 协同 过 滤 算 法 。 

@ LatentFactorMode (SVD) : 基于 矩阵 分 解 的 模型 。 
@ ”Graph: 图 模型 ， 社 会 网 络 图 模型 。 


5.9.2 ”相似 度 度量 

关于 相似 度 的 计算 ， 现 有 的 几 种 基本 方法 都 是 基于 向 量 (Vector) 的 ， 其 实 也 就 是 计算 
两 个 向 量 的 距离 ， 距 离 越 近 ， 相 似 度 越 大 。 在 推荐 的 场景 中 ， 在 用 户 -物品 偏好 的 二 维和 矩阵 
中 ， 我 们 可 以 将 一 个 用 户 对 所 有 物品 的 偏好 作为 一 个 向 量 来 计算 用 户 之 间 的 相似 度 ， 或 者 将 
所 有 用 户 对 某 个 物品 的 偏好 作为 一 个 向 量 来 计算 物品 之 间 的 相似 度 。 下 面 我 们 详细 介绍 几 种 
常用 的 相似 度 计算 方法 。 


1. 欧 几 里 得 距离 ( Euclidean Distance ) 
最 初 用 于 计算 欧 几 里 得 空间 中 两 个 点 的 距离 ， 假 设 x，y 是 维 空间 的 两 个 点 ， 它 们 之 
间 的 欧 几 里 得 距离 是 : 


d(x,y)=(D(% 5) ) (5-29) 


相似 度 : 
lL 


Sim(x, »y) 二 1+a(x,y) (5-30) 


2. 皮尔 逊 相关 度 ( Pearson Correlation Coefficient ) 


皮尔 逊 相关 度 〈Pearson Correlation Coefficient) ， 用 于 判断 两 组 数据 与 某 一 直线 拟 合 程 
度 的 一 种 度量 ， 取 值 在 [-1,1] 之 间 。 当 数据 不 是 很 规范 的 时 候 (如 偏差 较 大 ) ， 皮 尔 逊 相关 度 
会 给 出 较 好 的 结果 。 


pa ney 加 nD xy, -Dx y, 


P(x,y)= = (31) 


Dss, re- 











-曼哈顿 距离 


3 
曼哈顿 距离 〈Manhattan distance) ， 就 是 在 欧 几 里 得 空间 的 固定 直角 坐标 系 上 两 点 所 形 
成 的 线段 对 轴 产 生 的 投影 的 距离 总 和 : 
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d(x,y)= > /xy// 


4. Jaccard 系数 


(5-32) 


Jaccard 系数 ， 也 称 为 Tanimoto 系数 ， 是 Cosine 相似 度 的 扩展 ， 也 多 用 于 计算 文档 数据 
的 相似 度 。 通 常 应 用 于 x 为 布尔 向 量 ， 即 各 分 量 只 取 0 或 1 的 时 候 。 此 时 ， 表 示 的 是 x，?y 的 


公共 特征 的 占 x，y 所 占有 的 特征 的 比例 : > 
Xey bo 
T(x,y) i 一 和 一 
/x +// yf xy VE Dy 














5.9.3 协同 过 滤 算 法 按照 数据 使 用 分 类 
1. 基于 用 户 ( UserCF ) 一 一 基于 用 户 相似 性 


(5-33) 


基于 用 户 的 协同 过 滤 ， 通 过 不 同 用 户 对 物品 的 评分 来 评测 用 户 之 间 的 相似 性 ， 基 于 用 户 
之 间 的 相似 性 做 出 推荐 。 简 单 来 讲 ， 就 是 给 用 户 推 荐 和 他 兴趣 相似 的 其 他 用 户 喜 欢 的 物品 。 
举 个 例子 ， 有 三 个 用 户 A、B、C， 四 个 物品 A、B、C、D， 需 要 向 用 户 A 推荐 物品 ， 


如 表 5-14 所 示 。 


表 5-14 向 用 户 A 推 荐 物品 表 





这 里 ， 由 于 用 户 A 和 用 户 C 都 买 过 物品 A 和 物品 C， 所以， 我 们 认为 用 户 A 和 用 户 C 


非常 相似 ， 同 时 ， 用 户 C 又 买 过 物品 D， 那 么 就 需要 给 A 用 户 推荐 物品 D。 


基于 UserCF 的 基本 思想 相当 简单 ， 基 于 用 户 对 物品 的 偏好 ， 找 到 相 邻 邻居 用 户 ， 然 后 


将 邻居 用 户 喜欢 的 商品 推荐 给 当前 用 户 。 


计算 上 ， 将 一 个 用 户 对 所 有 物品 的 偏好 作为 一 个 向 量 来 计算 用 户 之 间 的 相似 度 ， 找 到 天 
邻居 后 ， 根 据 邻 居 的 相似 度 权重 以 及 他 们 对 物品 的 偏好 ， 预 测 当 前 用 户 没有 偏好 的 未 涉及 物 


品 ， 计 算得 到 一 个 排序 的 物品 列表 作为 推荐 。 
2. 基于 商品 ( ltemCF ) 一 一 基于 商品 相似 性 
基于 商品 的 协同 过 滤 ， 通 过 用 户 对 不 同 Item 的 评分 来 评测 Item 之 间 的 可 


日 似 性 ， 基 于 


Item 之 间 的 相似 性 做 出 推荐 。 简 单 来 讲 ， 就 是 给 用 户 推荐 和 他 之 前 喜欢 的 物品 相似 的 物品 。 





有 三 个 用 户 A、B、C 和 三 件 物品 A、B、C， 需 要 向 用 户 C 推荐 物品 。 这 里 ， 由 于 用 户 
A 买 过 物品 A 和 C， 用 户 B 买 过 物品 A、B、C， 用 户 C 买 过 物品 A， 从 用 户 A 和 B 可 以 看 
出 ， 这 两 个 用 户 都 买 过 物品 A 和 C， 说 明 物品 A 和 C 非常 相似 ， 同 时 ， 用 户 C 又 买 过 物品 


A， 所 以 ， 将 物品 C 推荐 给 用 户 C， 如 表 5-15 所 示 。 
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表 5-15 将 物品 C 推荐 给 用 户 C 表 





基于 ItemCF 的 原理 和 基于 UserCF 类 似 ， 只 是 在 计算 邻居 时 采用 物品 本 身 ， 而 不 是 从 用 
户 的 角度 ， 即 基于 用 户 对 物品 的 偏好 找到 相似 的 物品 ， 然 后 根据 用 户 的 历史 偏好 ， 推 荐 相似 
的 物品 给 他 。 

从 计算 角度 ， 即 将 所 有 用 户 对 某 个 物品 的 偏好 作为 一 个 向 量 来 计算 物品 之 间 的 相似 度 ， 
得 到 物品 的 相似 物品 后 ， 根 据 用 户 历 史 的 偏好 预测 当前 用 户 还 没有 表示 偏好 的 物品 ， 计 算得 
到 一 个 排序 的 物品 列表 作为 推荐 。 


3. 基于 模型 ( ModelCF ) 


基于 模型 的 协同 过 滤 推 荐 就 是 基于 样本 的 用 户 喜好 信息 ， 训 练 一 个 推荐 模型 ， 然 后 根据 
实时 的 用 户 喜 好 的 信息 进行 预测 ， 计 算 推 荐 。 


5.9.4 Spark MLlib 协同 过 滤 算 法 实现 
Spark MLlib 实现 了 交替 最 小 二 乘法 (ALS) 来 学 习 这 些 隐 性 语义 因子 。 在 MLlib 中 的 
实现 有 如 下 的 参数 : 


@ numBlocks: 用 于 并 行 化 计算 的 分 块 个 数 (设置 为 -1， 为 自动 配置 )。 
rank: 模型 中 隐语 义 因子 的 个 数 。 
iterations: 和 欠 代 的 次 数 。 
lambda: ALS 的 正则 化 参数 。 
implicitPrefs: 决定 了 是 用 显 性 反馈 ALS 的 版 本 还 是 用 隐 性 反馈 数据 集 的 版 本 。 
alpha: 是 一 个 针对 隐 性 反馈 ALS 版 本 的 参数 ， 这 个 参数 决定 了 偏好 行为 强度 的 基准 。 
可 以 调整 这 些 参数 ， 不 断 优化 结果 ， 使 均 方差 变 小 。 比 如 : iterations 越 多 ，lambda 较 
小 ， 均 方差 会 较 小 ， 推 荐 结果 较 优 。 
协同 过 滤 ALS 算法 推荐 过 程 如 下 : 
@ 加载 数据 到 ratings RDD， 每 行 记录 包括: user、product、rate。 
从 ratings 得 到 用 户 商品 的 数据 集 : (user, product)。 
使 用 ALS 对 ratings 进行 训练 。 
通过 model 对 用 户 商品 进行 预测 。 评 分 : ((user, product), rate)。 
从 ratings 得 到 用 户 商品 的 实际 评分 : ((user, producb, rate)。 
合并 预测 评分 和 实际 评分 的 两 个 数据 集 ， 并 求 均 方差 。 
在 下 面 的 例子 中 我 们 额定 载荷 数据 。 每 一 行 包含 一 个 用 户 、 一 个 产品 和 评级 。 我 们 使 用 
train( ALS 方法 ， 采 用 明确 的 额定 值 。 我 们 评估 的 推荐 模型 ， 通 过 测量 的 均 方 根 误差 等 级 预测 。 
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1. Scala 
ALS Scala docs 更 多 的 细节 参考 API。 
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完整 的 实例 代码 : 


如 果 评 分 矩阵 是 从 其 他 信息 源 获得 的 ， 可 以 采用 trainImplicit 算法 获得 更 好 的 结果 。 


2. Java 
ALS Java docs 更 多 的 细节 参考 API。 
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完整 的 实例 代码 : 


3. Python 
ALS Python docs 更 多 的 细节 参考 API。 





完整 的 实例 代码 : 





如 果 评分 矩阵 是 从 其 他 信息 源 获得 的 ， 可 以 采用 trainImplicit 算法 获得 更 好 的 结果 : 
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5.9.5 ”Spark MLlib 电影 评级 推荐 


1. 推荐 系统 常用 数据 集 


(1 ) MovieLens 

MovieLens 数据 集中 ， 用 户 对 自己 看 过 的 电影 进行 评分 ， 分 值 为 1 一 5。MovieLens 包括 
两 个 不 同 大 小 的 库 ， 适 用 于 不 同 规模 的 算法 。 小 规模 的 库 是 943 个 独立 用 户 对 1682 部 电影 做 
的 10000 次 评分 的 数据 ;大 规模 的 库 是 6040 个 独立 用 户 对 3900 部 电影 做 的 大 约 100 万 次 评分 。 

(2) EachMovie 

HP/Compaq 的 DEC 研究 中 心 曾经 在 网 上 架设 EachMovie 电影 推荐 系统 对 公众 开放 。 之 
后 ， 这 个 推荐 系统 关闭 了 一 段 时 间 ， 其 数据 作为 研究 用 途 对 外 公布 ，MovieLens 的 部 分 数据 
就 是 来 自 于 这 个 数据 集 的 。 这 个 数据 集 有 72916 个 用 户 对 1628 部 电影 进行 的 2811983 次 评 
分 。 早 期 大 量 的 协同 过 滤 的 研究 工作 都 是 基于 这 个 数据 集 的 。2004 年 HP 重新 开放 
EachMovie， 这 个 数据 集 就 不 提供 公开 下 载 了 。 


(3) BookCrossing 

这 个 数据 集 是 网 上 的 Book-Crossing 图 书社 区 的 278858 个 用 户 对 271379 本 书 进行 的 评 
分 ,包括 显 式 和 隐 式 的 评分 。 这 些 用 户 的 年 龄 等 人 口 统计 学 属性 demographic feature) 都 以 
匿名 的 形式 保存 并 供 分 析 。 这 个 数据 集 是 由 Cai-Nicolas Ziegler 使 用 候 虫 程序 在 2004 年 从 
Book-Crossing 图 书社 区 上 采集 的 。 


(4) Jester Joke 
Jester Joke 是 一 个 网 上 推荐 和 分 享 笑 话 的 网 站 。 这 个 数据 集 有 73496 个 用 户 对 100 个 笑 
话 做 的 410 万 次 评分 。 评 分 范围 是 -10~10 的 连续 实数 。 这 些 数据 是 由 加 州 大 学 伯克利 分 校 的 
Ken Goldberg 公布 的 。 


(5) Netflix 
这 个 数据 集 来 自 于 电影 租赁 网 址 Netflix 的 数据 库 。Netflix 于 2005 年 底 公布 此 数据 集 并 
设立 百 万 美元 的 奖金 netflix prize) ， 征 集 能 够 使 其 推荐 系统 性 能 上 升 10% 的 推荐 算法 和 架 
构 。 这 个 数据 集 包 含 了 480189 个 匿名 用 户 对 大 约 17770 部 电影 作 的 大 约 10 亿 次 评分 。 


(6) Usenet Newsgroups 

这 个 数据 集 包括 20 个 新 闻 组 的 用 户 浏览 数据 。 最 新 的 应 用 是 在 KDD2007 上 的 论文 。 新 
闻 组 的 内 容 和 讨论 的 话题 包括 计算 机 技术 、 摩 托 车 、 篮 球 、 政 治 等 。 用 户 们 对 这 些 话题 进行 
评价 和 反馈 。 

(7) UCI 知识 库 

UCI 知识 库 是 Blake 等 人 在 1998 年 开放 的 一 个 用 于 机 器 学 习 和 评测 的 数据 库 ， 其 中 存储 
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大 量 用 于 模型 训练 的 标注 样本 。 
(8) http://snap.stanford.edu/na09/resources.html 
(9) http://archive.ics.uci.edu/ml/ 
(10) http://www.ituring.com.cn/article/details/1188 


我 们 将 使 用 MovieLens 数据 集 (下 载 地 址 ，http:/www.grouplens.org/node/12〉 的 两 个 文 


件 : ratings.dat、 movies.dat。 格 式 为 : 用 户 ID， 电 影 ID， 评 分 ， 评 价 时 间 。 所 有 的 评级 都 
包含 在 ratings.dat 文件 中 ， 并 以 下 格式 描述 : 





电影 信息 在 文件 “movies.dat” 中 并 以 下 面 的 格式 存在 : 





2. Spark MLIib 电影 评级 推荐 模型 ( ModelCF ) 


基于 模型 的 协同 过 滤 推 荐 就 是 基于 样本 的 用 户 喜 好 信息 ， 训 练 一 个 推荐 模型 ， 然 后 根据 
实时 的 用 户 喜 好 的 信息 进行 预测 ， 计 算 推 荐 ， 如 图 5-12 所 示 。 


Low-Rank Matrix Factorization 
i rn 区 
:| 3 : 
~ 和 日 = 2 : 
和 A) 四 E 
Movies 1 ™ 
图 5-12 ModelCF 
Tterate: 
fi]=argmin Rv -of [LD +alok (5-34) 
3. 创建 训练 实例 


通过 运行 bin/rateMovies， 在 MovieLens 数据 集中 选择 一 小 部 分 用 户 评级 的 电影 数据 形成 
你 的 用 户 评级 推荐 : 





当 运 行 这 个 脚本 时 ， 注 意 看 类 似 下 面 的 提示 : 
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用 MovieLens 格式 ， 在 personalRatings.txt 中 存储 用 户 的 电影 评级 信息 ， 在 文件 中 分 配给 
用 户 ID， 如 果 想 知道 自己 的 评级 对 评级 推荐 的 影响 ，rateMovies 允许 重新 评级 电影 。 用 户 如 
果 没 安装 python， 可 以 复制 personalRatings.txt.template 到 personalRatings.txt 中 ， 并 用 评级 代 
替 ?s 。 


4. 以 Scala 为 例 安装 程序 
我 们 将 使 用 一 个 独立 的 项 目 模板 训练 。 训 练 的 USB 驱动 安装 在 machine-learning/scala/. 
中 ， 在 以 下 目录 中 找到 相应 的 项 目 〈items) : 


@ build.sbt: SBT 项 目 文件 。 

@ MovieLensALS.scala: 要 编辑 、 编 译 和 运行 的 主要 Scala 程序 。 
@ Solution: 包含 解决 方案 代码 目录 。 

以 下 是 要 编辑 、 编 译 的 主要 文件 ， 并 运行 。 

MovieLensALS.scala 如 下 : 
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先 仔细 看 看 文本 编辑 器 中 模板 代码 ， 然 后 对 模板 开始 添加 代码 。 定 位 movielensals 类 ， 
使 用 文本 编辑 器 打开 类 。 


任何 Spark 的 计算 ， 首先 创建 一 个 sparkconf 对 象 并 使 用 它 来 创建 一 个 对 象 
sparkcontext。 由 于 将 使 用 Spark 提交 程序 执行 ， 所 以 只 需要 配置 执行 内 存 分配 并 给 出 该 程序 
的 名 称 ， 例 如 “movielensals”， 以 标识 Spark 的 Web UI。 本 地 模式 中 ， 在 程序 的 执行 时 Web 
UI 可 以 访问 本 地 : 4040 端口 。 这 就 使 它 看 起 来 像 模板 代码 : 





下 一 步 ， 该 代码 使 用 sparkcontext 读 评 级 。 注 意 ， 评 级 文件 是 以 “: : ”作为 定 界 符 的 
文本 文件 。 分 析 每 一 行 代码 创建 一 个 评级 RDD， 包 含 〈Int，Rating) 对 ， 只 保留 时 间 戳 的 最 
后 一 位 数字 作为 随机 密 钥 。 这 个 评级 Rating 类 封装 在 元 组 (user: Int, product: Int, rating: 
Double) 中 。 
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其 次 ， 阅 读 代码 中 的 电影 ID 和 标题 ， 把 它们 收集 到 的 电影 ID 和 标题 图 中 。 





现在 ， 先 编辑 添加 代码 来 获得 评级 的 总 结 。 





5. 运行 程序 
spark-submit 是 Spark 在 集群 和 局 部 以 独立 模式 运行 应 用 推荐 的 方式 。 





在 屏幕 上 可 以 看 到 类 似 的 输出 : 





利用 MLlib’s ALS 训练 matrixfactorizationmodel， 需 要 把 Scala 的 RDD[Rating] 和 Python 
的 RDD[(user product，rating)] 对 象 作 为 输入 。 ALS 训练 参数 如 矩阵 排列 因素 和 常量 ， 用 以 确 
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定 一 个 优良 组 合 训练 参数 ， 把 数据 分 为 三 个 非 重 侠 的 子 集 ， 命 名 为 训练 、 测 试 和 验证 ， 附 加 
时 间 截 最 后 数字 。 根 据 训 练 集训 练 多 个 模型 ， 对 验证 集 基于 均 方 根 误差 RMSE (Root Mean 
Squared Error) 选择 最 佳 模型 ， 最 后 在 测试 集 上 评价 最 好 的 训练 模型 。 还 可 以 添加 用 户 评级 
到 训练 集 建议 用 户 训练 。 为 多 次 访问 需要 在 内 存 中 调用 cache 坚持 训练 和 验证 测试 集 。 





拆 分 之 后 ， 应 该 看 到 : 


6. 使 用 ALS 训练 


在 本 例 中 ， 我 们 将 使 用 als.train 训练 一 堆 模型 ， 并 从 中 选择 评价 最 好 的 。ALS 的 训练 参 
数 中 ， 最 重要 的 是 排名 〈rank) 、 和 (lambda 规范 化 常量 ) 和 和 迭 代 次 数 (iterations) 。ALS 
的 train 方法 我 们 打算 使 用 的 定义 如 下 : 





第 5 章 Spark MLiib 机 器 学 习 算 法 实 


理想 的 情况 是 ， 我 们 尝试 从 一 大 批 它 们 的 组 合 中 找到 最 好 的 。 由 于 时 间 的 关系 ， 我 们 将 
只 测试 从 2 个 不 同 排列 的 向 量 积 (8 和 12) 构造 的 8 个 组 合 ，2 个 不 同 入 (1 和 10) 和 两 种 
不 同 的 数字 (10 和 20) 的 迭代 。 对 于 每 种 模型 ， 我 们 用 Spark 提供 的 方法 computermse， 在 
验证 集 上 计算 均 方 根 误差 (RMSE) 。 计 算 每 个 模型 验证 集 的 均 方 根 误差 ， 选 择 测试 集 的 均 
方 根 误 差 (RMSE) 作为 最 终 的 度量 。 解 决 方案 代码 如 下 : 


Spark 可 能 会 花 一 两 分 钟 来 训练 模型 ， 这 时 你 应 该 看 到 屏幕 上 下 面 的 内 容 : 


259 





云 计算 环境 下 Spark 大 数据 处 理 技术 与 实践 卫 


7. 电影 评级 推荐 


接 下 来 让 我 们 看 一 看 评级 模型 为 你 推荐 什么 样 的 电影 。 对 所 有 你 没有 评分 的 电影 通过 生 
成 (0，movieid) 参数 对 ， 调 用 模型 的 预测 〈predict) 算法 预测 的 结果 。0 是 分 配给 你 的 特 
殊 用 户 ID。 


计算 得 到 所 有 预测 结果 后 ， 列 出 排名 前 50 的 推荐 ， 看 是 否 符合 你 的 偏好 。 


相似 性 结果 输出 : 
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以 上 是 利用 老 数据 集 做 的 推荐 ， 所 以 电影 年 份 上 看 有 些 老 。 

ALS 输出 一 个 非 平 凡 的 影评 模型 吗 ? 评级 结果 可 以 与 平凡 基准 模型 输出 的 平均 评分 比较 
(或 者 你 可 以 尝试 输出 的 每 部 电影 的 平均 等 级 ) 。 计 算 基 准 的 均 方 根 误差 (RMSE) 直 堆 了 
当 。 解 决 方案 如 下 代码 : 





类 似 输出， 
Te best model improves the baseline by 20.96 


这 似乎 是 显而易见 的 ， 训 练 好 的 模型 会 胜 过 平凡 基准 。 然 而 ， 一 个 糟糕 的 训练 参数 组 合 
会 导致 模型 比 平凡 基准 差 。 选 择 正 确 的 训练 参数 集 是 任务 的 关键 。 

一 个 更 好 的 方法 是 首先 为 你 的 推荐 训练 集 构建 分 解 矩 阵 模型 ， 添 加 你 的 用 户 评级 到 训练 
集 ， 然 后 用 你 的 评级 增强 模型 ， 你 可 以 执行 MatrixFactorizationModel 看 是 否 模型 对 于 新 用 户 
有 新 的 更 新 。 


与 .1U0 spark MLlib 神经 网 络 算法 


神经 网 络 在 一 定 程度 上 受到 生物 学 的 启发 ， 由 一 系列 相互 链接 的 神经 单元 组 成 ， 每 一 个 
单元 都 有 一 定数 量 的 实 值 输入 《可 能 由 其 他 神经 单元 输出 ) ， 并 产生 单一 的 实数 值 输出 〈 可 
能 成 为 其 他 很 多 单元 的 输入 ) 外?50， 如 图 5-13 所 示 (来 源 网 络 ) 。 





5-13 ”神经 网 络 系统 原理 
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其 中 ，g1,g2,…g7 的 输入 为 : 0.,…,X4， 而 gu82 :8r 又 作为 G 的 输入 。 

神经 网 络 系统 的 一 个 基本 单元 被 称 为 一 个 感知 机 ， 如 图 5-14 所 示 ， 以 一 个 实数 值 向 量 作 
为 输入 ， 计 算 这 些 输入 的 线性 组 合 ， 如 果 结 果 大 于 0， 就 输出 1， 否 则 输出 -1， 如 表达 式 
5-35 所 示 B99， 


h(x)= sign(D WN,)=sign(w x) (5-35) 
XI 
x Dm 
xd 
图 5-14 感知 机 


单独 的 一 个 感知 机 可 以 用 来 表示 原子 布尔 函数 ， 作 为 对 一 个 超 平面 进行 划分 的 线性 分 割 
面 。 然 而 ， 很 多 样 例 不 是 线性 可 分 的 ， 可 能 需要 多 个 分 割 面 组 成 ， 如 图 5-15 (来 源 网 络 ) 所 
示 ， 圆 中 的 点 与 圆 外 的 点 ， 只 用 一 个 线性 分 割 面 是 无 法 分 开 的 ， 如 果 样 本 数 继续 增加 ， 那 么 
就 需要 更 多 的 感知 器 来 逼近 实际 的 分 割 面 鸣 。 








图 5-15 多 样本 感知 机 双 近 线性 分 割 面 (8 个 感知 机 、16 个 感知 机 和 目标 边界 》 
由 神经 网 络 系统 原理 得 : 
8 = sign(wix) 


8 = sign(wix) 


gr = sign(wix) (5-36) 


G= sign(D Ag1) = sign(o’ g) (5-37) 
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上 三 sign(》 Qsign(w x)) (5-38) 


针对 不 同 的 问题 感知 机 可 能 有 不 同 的 形式 ， 如 图 5-16 所 示 ， 分 别 为 : 线性 分 类 、 线 性 回 
归 、 逻 辑 回 归 。 


























hx)=sign(s) h(x)=s h(xw)=Ls) 
Xa 线性 分 村 
图 5-16 变换 函数 


针对 线性 分 类 ，h(x) 不 可 微 ， 很 难 通过 优化 求解 方式 来 得 到 w。 
针对 线性 回归 ，h(w)=s 可 以 表示 为 5-39 式 的 形式 ， 整 个 网 络 都 是 线性 的 ， 也 就 失去 了 多 
层 网 络 的 意义 。 





Wo Ww Wal| | 和 
家 源 

G=[@ow.w0]l| ™ *| ||=a(wx)= Bx (5-39) 
MW wra| | xa 


针对 逻辑 回归 ， 常 用 的 为 sigmoid 函数 ， 也 可 以 称 为 logistic 函数 ，o(y)=1(1te”)， 它 
的 范围 为 0 到 1， 通 常 也 会 将 其 平移 缩放 到 -1 到 1 的 范围 : 


6(s) =26(s)-1=<—e = tanh(s) (5-40) 
ee 


一 个 典型 的 神经 网 络 ， 假 设 总 共有 工 层 (从 0 层 开始 ) 。 其 中 的 输入 数据 x 称 为 输入 
层 x ， 表 示 第 4 层 ， 最 后 一 层 的 x01 称 为 输出 层 ， 表 示 第 4 层 ， 中 间 的 这 些 层 表示 隐 
藏 层 。 

权重 为 : 

1<1<L layers 
WwW :0siga™ inputs (5-41) 
1<j<d’ outputs 
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分 数 为 : 


a 
a (1) 
二 之 Wx (5-42) 


变换 函数 为 : 
tanht SO) jj 
. | ， (5-43) 


s0 1=L 


每 一 层 的 变换 都 可 以 是 先进 行 权重 矩阵 与 输入 向 量 的 乘法 ， 然 后 得 到 新 的 向 量 ， 再 对 新 
的 向 量 中 的 每 一 个 数据 进行 tanh 处 理 。 


(CD) 


SI 
Ox)=tanh| | … 
六 
dD 
> ps 
i=0 
= tanh 
HD (5-44) 
SF whe 
i=0 
wD wo Xl 
=tanh oe ws 六 s 
WO 流 直 WR 0 
=tanh(w Ox) 
最 后 得 : 
y=w i (tanh(w i (...tanh(w dx)))) (5-45) 


Spark MLlib NeuralNet 代码 参见 附录 ， 可 从 下 面 网 址 下 载 。 
https://github.com/sunbow1/Spark MLlibDeepLearn 


5.11 本 章 小 结 


本 章 主要 从 Spark MLlib 的 大 数据 算法 实现 的 角度 ， 集 中 概括 了 Spark 机 器 学 习 的 分 类 及 
其 案例 分 析 。 然 后 针对 常用 的 Spark MLlib 机 器 学 习 的 算法 分 别 以 Scala、R 和 Java 语言 给 出 
了 算法 实现 。 
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数据 管理 比 以 往 更 加 复杂 ， 到 处 都 是 大 数据 ， 包 括 每 个 人 的 想法 以 及 不 同 的 形式 : 广 
告 、 社 交 图 谱 、 信 息 流 、 推 荐 、 市 场 、 健 康 、 安全 、 政 府 等 。 过 去 的 几 年 里 ， 成 千 上 万 的 技 
术 必 须 处 理 汇合 在 一 起 的 大 数据 获取 、 管 理 和 分 析 等 业务 。 技 术 选 型 对 IT 部 门 来 说 是 一 件 艰 
巨 的 任务 ， 因 为 在 大 多 数 时 间 里 没有 一 个 综合 的 方法 来 用 于 选 型 。 

大 数据 我 们 也 许 听 得 很 多 了 ， 一 般 都 知道 Hadoop， 但 并 不 都 是 Hadoop。 那 么 我 们 该 如 
何 构建 自己 的 大 数据 项 目 呢 ? 对 于 离线 处 理 ，Hadoop 还 是 比较 适合 的 ， 但 对 于 实时 性 比较 强 
的 ， 数 据 量 比较 大 的 ， 可 以 采用 Spark， 那 Spark 又 跟 什 么 技术 搭配 才能 做 一 个 适合 自己 的 项 
目 呢 ? 各 技术 之 间 又 是 如 何 整合 的 呢 ? 本 章 目的 是 定义 大 数据 的 表征 ， 将 给 大 家 介绍 下 大 数 
据 项 目 中 用 到 的 各 种 技术 框架 知识 ， 并 通过 一 个 实际 项 目的 分 布 式 集群 部 署 和 实际 业务 应 用 
来 详细 讲述 大 数据 架构 是 如 何 构建 的 。 


大 数据 架构 介绍 


大 数据 可 通过 许多 方式 来 存储 、 获 取 、 处 理 和 分 析 。 每 个 大 数据 来 源 都 有 不 同 的 特征 ， 
包括 数据 的 频率 、 量 、 速 度 、 类 型 和 真实 性 。 处 理 并 存储 大 数据 时 ， 会 涉及 更 多 维度 ， 比 如 
治理 、 安 全 性 和 策略 。 选 择 一 种 架构 并 构建 合适 的 大 数据 解决 方案 极 具 挑战 性 ， 因 为 需要 考 
虑 非常 多 的 因素 659。 大 数据 处 理 流程 如 图 6-1 所 示 。 


E+ 全 


上 报 


( 数据 存储 De 数据 计算 


图 6-1 大 数据 处 理 流程 
业务 问题 可 分 类 为 不 同 的 大 数据 问题 类 型 。 将 使 用 此 类 型 确定 合适 的 分 类 模式 和 合适 的 
大 数据 解决 方案 。 第 一 步 是 将 业务 问题 映射 到 它 的 大 数据 类 型 。 
按 类 型 对 大 数据 问题 进行 分 类 ， 更 容易 看 到 每 种 数据 的 特征 。 这 些 特征 可 帮助 我 们 了 解 
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如 何 获取 数据 、 如 何 将 它 处 理 为 合适 的 格式 ， 以 及 新 数据 出 现 的 频率 。 来 自 不 同 来 源 的 数据 
具有 不 同 的 特征 。 例 如 ， 社 交 媒 体 数据 包含 不 断 传 入 的 视频 、 图 像 和 非 结 构 化 文本 ， 对 数据 
进行 分 类 后 ， 就 可 以 将 它 与 合适 的 大 数据 模式 匹配 pq 。 

需要 一 个 架构 具备 长 时 间 处 理 和 准 实时 数据 处 理 的 能 力 。 这 一 架构 是 分 布 式 的， 而 不 是 
依赖 于 高 性 能 且 价格 高 昂 的 商用 机 ， 取 而 代 之 的 是 高 可 用 、 人 性 能 驱动 和 廉价 技术 所 赋予 的 灵 
活性 7。 


昌 .2 典型 的 商务 使 用 场景 


除了 技术 和 架构 考虑 ， 需 要 面 对 典 型 大 数据 用 例 的 使 用 场景 。 它 们 部 分 与 特殊 的 工业 领 
域 相关 ， 另 外 的 部 分 可 能 适应 于 各 种 领域 。 这 些 考虑 一 般 都 是 基于 分 析 应 用 的 日 志 ， 例 如 
Web 访问 日 志 、 应 用 服务 器 日 志和 数据 库 日 志 ， 但 是 也 可 以 基于 各 种 其 他 的 数据 源 ， 例 如 社 
交 网 络 数据 。 当 面 对 这 些 使 用 场景 的 时 候 ， 如 果 希 望 随 着 商务 的 增长 而 弹性 扩展 ， 就 需要 考 
虑 设计 一 个 分 布 式 的 大 数据 架构 。 


6.2.1 客户 行为 分 析 

感知 客户 ， 或 者 叫做 “360 度 客 户 视角 ”可 能 是 最 流行 的 大 数据 使 用 场景 。 客 户 视角 通 
常用 于 电子 商务 网 站 ， 一 般 它 始 于 一 个 非 结构 化 的 点 击 流 ， 换 而 言 之 , 由 一 个 访客 执行 的 主 
动 点 击 和 被 动 的 网 站 导航 操作 组 成 。 通 过 计算 和 分 析 点 击 量 和 面向 产品 或 广告 的 印象 ， 可 以 
依赖 行为 而 适 配 访客 的 用 户 体验 ， 目 标 是 得 到 优化 漏斗 转换 的 模型 。 

采用 标签 库 体系 理论 ， 结 合 大 数据 分 析 和 实践 方法 ， 基 于 来 自 于 企业 内 外 部 的 客户 、 产 
品 、 销 售 、 资 产 、 行 为 轨迹 、 体 验 评价 属性 等 相关 数据 ， 通 过 数据 挖掘 /机 器 学 习 等 ， 提 取出 
有 价值 的 信息 ， 形 成 客户 统一 视图 ， 构 建 符合 业务 规则 的 客户 标签 体系 。 

客户 标签 体系 从 客户 基本 信息 、 客 户 行为 轨迹 等 多 个 维度 ， 为 每 一 个 客户 打上 特定 的 标 
签 ， 通 过 标签 可 识别 特定 特征 的 目标 群体 ， 使 得 定位 目标 群体 更 加 准确 、 高 效 。 一 方面 高 效 
快速 地 增加 企业 收入 的 同时 节约 企业 的 运营 成 本 、 降 低 交 易 风 险 ， 另 一 方面 增强 客户 体验 ， 
提升 客户 满意 度 、 客 户 忠 诚 度 。 客 户 行为 分 析 图 如 图 6-2 所 示 。 


客户 忠诚 度 
客户 价值 





6-2 客户 行为 分 析 图 
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1. 数据 采集 

建立 客户 信息 采集 渠道 网 络 ， 从 业务 系统 、 数 据 库 、 互 联网 、 社 交 媒 体 等 各 种 数据 源 ， 
采集 用 户 数据 ， 包 括 但 不 限于 人 口 统计 学 特征 数据 、 兴 趣 特征 数据 、 社 会 属性 特征 数据 、 业 
务 特征 数据 等 。 


2. 挖掘 分 析 


整合 数据 ， 通 过 数据 清洗 、 预 处 理 等 基本 步骤 ， 利 用 业务 规则 归纳 、 统 计 分 析 、 数 学 建 
模 、 机 器 学 习 等 手段 挖掘 提取 有 价值 的 信息 。 


3. 标签 体系 建设 

基于 挖掘 得 出 的 有 价值 信息 ， 结 合 企业 业务 规则 ， 构 建 完 善 的 客户 标签 体系 。 
4. 标签 应 用 

将 已 经 开发 好 的 标签 应 用 到 实际 的 营销 、 管 理工 作 中 。 

5. 效果 监控 

提供 可 视 化 的 界面 ， 监 控 已 经 上 线 标签 的 应 用 效果 。 


6.2.2 ”情绪 分 析 

商务 应 用 关注 的 是 其 在 社交 网 络 上 所 被 感知 的 形象 和 声誉 ， 把 可 能 使 他 们 声名 狼藉 的 负 
面 事件 最 小 化 并 充分 利用 正面 事件 。 通 过 准 实时 抓 取 大 量 的 社交 数据 ， 可 以 提取 出 社交 社区 
中 关于 品牌 的 感受 和 情绪 ， 从 而 影响 用 户 并 联系 他 们 ， 改 变 并 强化 与 这 些 用 户 的 交互 bg。 

对 于 面向 过 程 的 服务 类 型 、 服 务 质量 ， 却 很 难以 结构 化 的 数据 去 评价 和 判断 。 客 户 对 整 
个 服务 过 程 的 主观 评价 ， 成 为 研究 服务 质量 的 重要 来 源 。 客 户 对 整体 服务 质量 的 评价 ， 很 大 
程度 上 会 转化 为 情绪 释放 ， 因 此 ， 客 户 情绪 在 服务 质量 评价 中 具有 重要 的 研究 意义 9。 

在 多 元 化 营销 服务 的 大 环境 下 ， 不 同 客 户 对 服务 质量 要 求 的 不 同 ， 不 同 的 服务 质量 因 
素 、 标 准 对 不 同 客户 的 影响 也 截然 不 同 。 在 客户 反馈 的 过 程 中 ， 客 户 不 同 的 情绪 很 大 程度 上 
反映 了 对 企业 的 满意 度 和 忠诚 度 ， 在 这 个 角度 ， 探 索 客户 情绪 与 产品 服务 质量 的 关系 ， 对 防 
止 客户 悄然 流逝 ， 预 先进 行 质量 预 控 会 有 更 大 的 帮助 和 效果 。 在 分 析 影 响 客 户 情绪 的 因素 
中 ， 结 合 客户 情绪 与 服务 满意 度 的 关系 理论 ， 从 服务 的 内 、 外 部 因素 着 手 ， 包 括 市 场 竞争 环 
境 、 客 户 生命 周期 、 服 务 本 身 的 特征 等 方面 对 情绪 的 影响 ， 总 结 了 多 种 条 件 下 客户 表达 情绪 
的 规律 Po 。 

利用 数据 挖掘 方法 、 文 本 识别 模型 智能 的 对 非 结 构 化 的 客户 评价 文本 进行 自动 识别 ， 并 
从 中 挖掘 客户 释放 的 情绪 特征 ， 以 及 影响 客户 服务 质量 的 要 素 ， 通 过 建立 评估 规则 和 预 控 模 
型 ， 形 成 对 服务 质量 风险 的 评价 和 措施 。 


6.2.3 CRM Onboarding 
基于 访客 的 社交 行为 ， 可 以 将 客户 的 行为 分 析 和 数据 的 情感 分 析 结 合 在 一 起 。 希 望 将 这 
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些 在 线 数据 源 和 已 经 存在 的 离线 数据 结合 在 一 起 ， 这 叫做 CRM (customer relationship 
management) onboarding， 以 便于 得 到 更 好 和 更 准确 的 客户 定位 。 进 而 ， 公 司 能 够 充分 利用 
这 一 定位 ， 从 而 建立 更 好 的 目标 系统 ， 使 市 场 活动 的 效益 最 大 化 。 


6.2.4 ”预测 

从 数据 中 学 习 在 过 去 几 年 已 经 成 为 主要 的 大 数据 趋势 。 基 于 大 数据 的 预测 在 许多 业界 是 
非常 有 效 的 ， 例 如 百度 预测 、 经 济 指数 预测 、 景 点 预测 、 疾 病 预测 、 城 市 预测 、 欧 洲 赛事 预 
测 、 世 界 杯 预测 、 高 考 预测 、 电 影 票 房 预测 等 。 预 测 性 分 析 是 大 数据 最 核心 的 功能 。 

大 数据 还 拥有 数据 可 视 化 和 大 数据 挖掘 的 功能 ， 对 已 发 生 的 信息 价值 进行 挖掘 并 辅助 决 
策 。 传 统 的 数据 分 析 挖 掘 在 做 相似 的 事情 ， 只 不 过 效率 会 低 一 些 或 者 说 挖掘 的 深度 、 广 度 和 
精度 不 够 。 大 数据 预测 则 是 基于 大 数据 和 预测 模型 去 预测 未 来 某 件 事情 的 概率 。 让 分 析 从 
“面向 已 经 发 生 的 过 去 ”转向 “面向 即将 发 生 的 未 来 ”， 这 是 大 数据 与 传统 数据 分 析 的 最 大 
不 同 。 

大 数据 预测 的 逻辑 基础 是 ， 每 一 种 非常 规 的 变化 事前 一 定 有 征兆 ， 每 一 件 事情 都 有 迹 可 
循 ， 如 果 找 到 了 征兆 与 变化 之 间 的 规律 ， 就 可 以 进行 预测 。 大 数据 预测 无 法 确定 某 件 事 情 必 
然 会 发 生 ， 它 更 多 的 是 给 出 一 个 概率 。 


名. 二 spark 三 种 分 布 式 部 署 模式 


目前 Apache Spark 支持 三 种 分 布 式 部 署 方式 ， 分 别 是 standalone、spark on Mesos 和 
spark on YARN， 其 中 ， 第 一 种 类 似 于 MapReduce 1.0 所 采用 的 模式 ， 内 部 实现 了 容错 性 和 资 
源 管 理 ， 后 两 种 则 是 未 来 发 展 的 趋势 ， 部 分 容错 性 和 资源 管理 交 由 统一 的 资源 管理 系统 完 
成 : 让 Spark 运行 在 一 个 通用 的 资源 管理 系统 之 上 ， 这 样 可 以 与 其 他 计算 框架 ， 比 如 
MapReduce， 共 用 一 个 集群 资源 ， 最 大 的 好 处 是 降低 运 维 成 本 和 提高 资源 利用 率 《〈 资 源 按 需 
分 配 ) 。 


6.3.1 Standalone 模式 

Standalone 模式 ， 即 独立 模式 ， 自 带 完整 的 服务 ， 可 单独 部 署 到 一 个 集群 中 ， 无 须 依赖 
任何 其 他 资源 管理 系统 。 从 一 定 程 度 上 说 ， 该 模式 是 其 他 两 种 的 基础 。 借 鉴 Spark 开发 模 
式 ， 我 们 可 以 得 到 一 种 开发 新 型 计算 框架 的 一 般 思路 : 先 设 计 出 它 的 standalone 模式 ， 为 了 
快速 开发 ， 起 初 不 需要 考虑 服务 (比如 master/slave ) 的 容错 性 ， 之 后 再 开发 相应 的 
wrapper， 将 standalone 模式 下 的 服务 原封 不 动 地 部 署 到 资源 管理 系统 YARN 或 者 Mesos 上 ， 
由 资源 管理 系统 负责 服务 本 身 的 容错 。 目 前 Spark 在 standalone 模式 下 是 没有 任何 单 点 故障 
问题 的 ， 这 是 借助 zookeeper 实现 的 ， 思 想 类 似 于 HBase master 单 点 故障 解决 方案 。 将 Spark 
standalone 与 MapReduce 比较 ， 会 发 现 它 们 两 个 在 架构 上 是 完全 一 致 的 : 


(1) 都 是 由 master/slaves 服务 组 成 的 ， 且 起 初 master 均 存 在 单 点 故障 ， 后 来 均 通过 
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zookeeper 解决 “Apache MRv1 的 JobTracker 仍 存在 单 点 问题 ,但 CDH 版 本 得 到 了 解决 ) 。 
(2) 各 个 节点 上 的 资源 被 抽象 成 粗 粒度 的 slot， 有 多 少 slot 就 能 同时 运行 多 少 task。 不 
同 的 是 ，MapReduce 将 slot 分 为 map slot 和 reduce slot， 它 们 分 别 只 能 供 Map Task 和 Reduce 
Task 使 用 ， 而 不 能 共享 ， 这 是 MapReduce 资源 利率 低 效 的 原因 之 一 ， 而 Spark 则 更 优化 一 
些 ， 它 不 区 分 slot 类 型 ， 只 有 一 种 slot， 可 以 供 各 种 类 型 的 Task 使 用 ， 这 种 方式 可 以 提高 资 
源 利用 率 ， 但 是 不 够 灵活 ， 不 能 为 不 同类 型 的 Task 定制 slot 资源 。 
总 之 ， 这 两 种 方式 各 有 优 缺 点 。 





6.3.2 Spark On Mesos 模式 

Spark On Mesos 模式 是 很 多 公司 采用 的 模式 ， 官 方 推荐 这 种 模式 当然 ， 原 因 之 一 是 血 
缘 关 系 ) 。 正 是 由 于 Spark 开发 之 初 就 考虑 到 支持 Mesos， 因 此 ， 目 前 而 言 ，Spark 运行 在 
Mesos 上 会 比 运行 在 YARN 上 更 加 灵活 ， 更 加 自然 。 目 前 在 Spark On Mesos 环境 中 ， 用 户 可 
选择 两 种 调度 模式 之 一 运行 自己 的 应 用 程序 (可 参考 Andrew Xia 的 《Mesos Scheduling Mode 
on Spark》) 。 


(1) 粗 粒 度 模式 (Coarse-grained Mode) 。 每 个 应 用 程序 的 运行 环境 由 一 个 dirver 和 若 
干 个 Executor 组 成 ， 其 中 ， 每 个 Executor 占用 若干 资源 ， 内 部 可 运行 多 个 Task (对 应 多 少 个 
slot) 。 应 用 程序 的 各 个 任务 正式 运行 之 前 ， 需 要 将 运行 环境 中 的 资源 全 部 申请 好 ， 且 运行 过 
程 中 要 一 直 占 用 这 些 资源 ， 即 使 不 用 ， 最 后 程序 运行 结束 后 ， 回 收 这 些 资源 。 举 个 例子 ， 比 
如 你 提交 应 用 程序 时 ， 指 定 使 用 5 个 Executor 运行 你 的 应 用 程序 ， 每 个 Executor 占用 5GB 
内 存 和 5 个 CPU， 每 个 Executor 内 部 设置 了 5 个 slot， 则 Mesos 需要 先 为 Executor 分 配 资源 
并 启动 它们 ， 之 后 开始 调度 任务 。 另 外 ， 在 程序 运行 过 程 中 ，Mesos 的 master 和 slave 并 不 
知道 Executor 内 部 各 个 task 的 运行 情况 ，Executor 直接 将 任务 状态 通过 内 部 的 通信 机 制 汇 报 
给 driver。 从 一 定 程度 上 可 以 认为 ， 每 个 应 用 程序 利用 Mesos 搭建 了 一 个 虚拟 集群 自己 使 
用 。 

(2) 细 粒 度 模式 (Fine-grained Mode) 。 鉴 于 粗 粒 度 模式 会 造成 大 量 资源 浪费 ，Spark 
On Mesos 还 提供 了 另外 一 种 调度 模式 : 细 粒 度 模 式 ， 这 种 模式 类 似 于 现在 的 云 计算 ， 思 想 是 
按 需 分 配 。 与 粗 粒 度 模 式 一 样 ， 应 用 程序 启动 时 ， 先 会 启动 Executor， 但 每 个 Executor 占用 
资源 仅仅 是 自己 运行 所 需 的 资源 ， 不 需要 考虑 将 来 要 运行 的 任务 ， 之 后 ，Mesos 会 为 每 个 
executor 动态 分 配 资源 ， 每 分 配 一 些 ， 便 可 以 运行 一 个 新 任务 ， 单 个 Task 运行 完 之 后 可 以 马 
上 释放 对 应 的 资源 。 每 个 Task 会 汇报 状态 给 Mesos slave 和 Mesos master， 便 于 更 加 细 粒 度 
管理 和 容错 ， 这 种 调度 模式 类 似 于 MapReduce 调度 模式 ， 每 个 Task 完全 独立 ， 优 点 是 便于 
资源 控制 和 隔离 ， 但 缺点 也 很 明显 ， 短 作业 运行 延迟 大 。 





6.3.3 Spark On YARN 模式 

Spark On YARN 模式 是 一 种 最 有 前 景 的 部 署 模 式 。 但 限于 YARN 自身 的 发 展 ， 目 前 仅 
支持 粗 粒度 模式 (Coarse-grained Mode) 。 这 是 由 于 YARN 上 的 Container 资源 是 不 可 以 动态 
伸缩 的 ， 一 旦 Container 启动 之 后 ， 可 使 用 的 资源 不 能 再 发 生变 化 ， 不 过 这 个 已 经 在 YARN 
计划 (具体 参考 https://issues.apache.org/jira/browse/YARN-1197) 中 了 。 
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当 在 YARN 上 运行 Spark 作业 ， 每 个 Spark executor 作为 一 个 YARN 容器 (container) 运 
行 。Spark 可 以 使 得 多 个 Tasks 在 同一 个 容器 里 面 运行 ， 这 是 个 很 大 的 优点 。 注 意 ， 这 里 和 
Hadoop 的 MapReduce 作业 不 一 样 ，MapReduce 作业 为 每 个 Task 开启 不 同 的 JVM 来 运行 ， 
虽然 说 MapReduce 可 以 通过 参数 来 配置 。 

从 广义 上 讲 ，yarn-cluster 适用 于 生产 环境 ， 而 yarn-client 适用 于 交互 和 调试 ， 也 就 是 希 
望 快 速 地 看 到 application 的 输出 。 

在 介绍 yarn-cluster 和 yarn-client 的 深层 次 的 区 别 之 前 ， 先 明白 一 个 概念 : Application 
Master。 在 YARN 中 ， 每 个 Application 实例 都 有 一 个 Application Master 进程 ， 它 是 
Application 启动 的 第 一 个 容器 。 它 负责 和 ResourceManager 打交道 ， 并 请 求 资源 ， 获 取 资 源 
之 后 告诉 NodeManager 为 其 启动 container。 

从 深层 次 的 含义 讲 ，yarn-cluster 和 yarn-client 模式 的 区 别 其 实 就 是 Application Master 进 
程 的 区 别 。yarn-cluster 模式 下 ，driver 运行 在 AM (Application Master) 中 ， 它 负责 向 YARN 
申请 资源 ， 并 监督 作业 的 运行 状况 。 当 用 户 提交 了 作业 之 后 ， 就 可 以 关 掉 Client， 作 业 会 继 
续 在 YARN 上 运行 。 然 而 yarn-cluster 模式 不 适合 运行 交互 类 型 的 作业 ， 而 yarn-client 模式 
下 ，Application Master 仅仅 向 YARN 请 求 executor，client 会 和 请 求 的 container 通信 来 调度 
他 们 工作 ， 也 就 是 说 Client 不 能 离开 。 








〇 .A 创建 大 数据 架构 


从 高 层 视角 来 看 , 我 们 的 架构 看 起 来 像 男 一 个 电子 商务 应 用 架构 ， 需 要 如 下 。 


一 个 Web 应 用 : 访客 可 以 用 它 导 航 一 个 产品 目录 。 
一 个 日 志 摄 取 应 用 : 提取 日 志 并 处 理 它们 。 

一 个 机 器 学 习 应 用 : 为 访客 触发 推荐 。 

一 个 处 理 引擎 : 作为 该 架构 的 中 央 处 理 集群 。 

一 个 搜索 引擎 : 拉 取 处 理 数据 的 分 析 。 


6.4.1 数据 采集 

数据 的 获取 或 者 摄取 开始 于 不 同 的 数据 源 ， 可 能 是 大 的 日 志文 件 、 流 数据 、ETL 处 理 过 
的 输出 、 在 线 的 非 结构 化 数据 ， 或 者 离线 的 结构 化 数据 。 负 责 从 各 节点 上 实时 采集 数据 ， 可 
以 选用 Apache Flume 来 实现 。 

Apache Flume 是 Cloudera (Hadoop 数据 管理 软件 与 服务 提供 商 ) 提供 的 一 个 分 布 式 、 可 
靠 的、 高 可 用 的 海量 日 志 采 集 、 聚 合 和 传输 的 日 志 收集 系统 ， 支 持 在 日 志 系统 中 定制 各 类 数 
据 发 送 方 ， 用 于 收集 数据 ， 同时 ，Flume 提供 对 数据 进行 简单 处 理 ， 并 写 到 各 种 数据 接受 方 
〈 可 定制 ) 的 能 力 。Flume 数据 流 模型 如 图 6-3 所 示 。 
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图 63 ”Flume 数据 流 模型 

Flume 的 一 些 核心 概念 如 表 6-1 所 示 。Flume 以 Agent 为 最 小 的 独立 运行 单位 ， 一 个 
Agent 就 是 一 个 JVM (JavaVirtual Machine) ， 单 Agent 由 Source、Sink 和 Channel 三 大 组 件 
构成 ，Flume 的 数据 流 由 事件 (Event) 贯穿 始终 。 事 件 是 Flume 的 基本 数据 单位 ， 它 携带 日 
志 数 据 ( 字 节 数 组 形式 ) 并 且 携 带 有 头 信息 ， 这 些 Event 由 Agent 外 部 的 Client， 比 如 上 图 中 
的 WebServer 生成 。 当 Source 捕获 事件 后 会 进行 特定 的 格式 化 ， 然 后 Source 会 把 事件 推 入 
(单个 或 多 个 ) Channel 中 。 你 可 以 把 Channel 看 作 是 一 个 缓冲 区 ， 它 将 保存 事件 直到 Sink 
处 理 完 该 事件 。Sink 负责 持久 化 日 志 或 者 把 事件 推 向 另 一 个 Source。 


表 6-1 Flume 的 一 些 核心 概念 
组 件 功能 


使 用 JVM 运行 Flume。 每 台 机 器 运行 一 个 Agent， 但 是 可 以 在 一 个 Agent 中 包含 多 个 
Sources 和 Sinks 


生产 数据 ， 运 行 在 一 个 独立 的 线程 


| Source | 从 Client 收 集 数 据 , 传递 给 Chamel | 
| Sink | 从 Channel 收集 数据 ， 运 行 在 一 个 独立 线程 。 | 





6.4.2 ”数据 接 入 

由 于 采集 数据 的 速度 和 数据 处 理 的 速度 不 一 定 同步 ， 因 此 添加 一 个 消息 中 间 件 来 作为 组 
冲 ， 选 用 Apache 的 Kafka， 对 于 离线 数据 ， 选 用 HDFS。 

1. Kafka 

Kafka 是 一 种 高 吞吐 量 的 分 布 式 发 布 订阅 消息 系统 ， 它 可 以 处 理 消费 者 规模 的 网 站 中 的 
所 有 动作 流 数据 。 这 种 动作 (网 页 浏览 、 搜 索 和 其 他 用 户 的 行动 )》 是 在 现代 网 络 上 的 许多 社 
会 功能 的 一 个 关键 因素 。 这 些 数 据 通常 由 于 吞吐 量 的 要 求 而 需要 通过 处 理 日 志和 日 志 聚 合 来 
解决 。 对 于 像 Hadoop 的 一 样 的 日 志 数据 和 离线 分 析 系 统 ， 但 又 要 求实 时 处 理 ， 这 是 一 个 可 
行 的 解决 方案 。Kafka 的 目的 是 通过 Hadoop 的 并 行 加 载 机 制 来 统一 线 上 和 离线 的 消息 处 理 ， 
也 是 为 了 通过 集群 机 来 提供 实时 的 消费 。Kafka 的 一 些 核心 概念 如 表 6-2 所 示 ，Kafka 拓扑 结 
构 如 图 6-4 所 示 。 
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表 6-2 Kafka 的 一 些 核心 概念 


术语 功能 
Broker Kafka 集群 包含 一 个 或 多 个 服务 器 ， 这 种 服务 器 被 称 为 broker 





消息 分 开 存储 ， 逻 辑 上 一 个 topic 的 消息 虽然 保存 在 一 个 或 多 个 broker 上 ， 但 用 户 只 需 指 定 
消息 的 topic 即 可 生产 或 消费 数据 而 不 必 关 心 数据 存在 于 何 处 ) 
Partition Partition 是 物理 上 的 概念 ， 每 个 topic 包含 一 个 或 多 个 partition 
Producer 负责 发 布 消息 到 Kafka broker 
Consumer “| 消息 消费 者 ， 向 Kafka broker 读 取消 息 的 客户 端 
Consumer “| 每 个 consumer 属于 一 个 特定 的 consumer group 〔 可 为 每 个 consumer 指定 group name， 若 
Group 不 指定 group name， 则 属于 默认 的 group) _ 








Topic 每 条 发 布 到 Kafka 集群 的 消息 都 有 一 个 类 别 ， 这 个 类 别 被 称 为 topic。 (物理 上 不 同 topic 的 
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6-4 ”Kafka 拓扑 结构 


-个 典型 的 Kafka 集群 中 包含 若干 Producer (可 以 是 Web 前 端 产生 的 PageView， 或 者 是 
服务 器 日 志 、 系 统 CPU、Memory 等 ) ， 若 干 broker (Kafka 支持 水 平 扩展 ， 一 般 broker 数 
量 越 多 ， 集 群 吞吐 率 越 高 ) ， 若 干 Consumer Group， 以 及 一 个 Zookeeper 集群 。Kafka 通过 
Zookeeper 管理 集群 配置 ， 选 举 leader， 以 及 在 Consumer Group 发 生变 化 时 进行 rebalance。 
Producer 使 用 push 模式 将 消息 发 布 到 broker，Consumer 使 用 pull 模式 从 broker 订阅 并 消费 
消息 。 

2. ZooKeeper 

ZooKeeper 是 一 个 为 分 布 式 应 用 所 设计 的 分 布 的 、 开 源 的 协调 服务 。 它 提供 了 一 些 简单 
的 操作 ， 使 得 分 布 式 应 用 可 以 基于 这 些 接口 实现 诸如 配置 维护 、 域 名 服务 、 分 布 式 同 步 、 组 
服务 等 。ZooKeeper 的 一 些 基 本 概念 如 表 6-3 所 示 。 


表 6-3 ZooKeeper 的 一 些 基本 概念 














领导 者 负责 进行 投票 的 发 起 和 决议 ， 更 新 系统 状态 
Follower 用 于 接收 客户 端 请 求 并 向 客户 端 发 回 结果 ， 在 选举 
过 程 中 参与 投票 

Observer 可 以 接收 客户 端 连接 ， 将 写 请 求 转发 给 leader 节 
点 。 但 observer 不 参加 投票 过 程 ， 只 同步 leader 状态 。 
Observer 目的 是 为 了 扩展 系统 ， 提 高 读 取 速 度 

请 求 发 起 方 


领导 者 (leader) 











跟随 者 follower) 
观察 者 (observer) 





学 习 者 (learner) 

















客户 端 (client) 
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ZooKeeper 很 容易 编程 接 入 ， 它 使 用 了 一 个 和 文件 树 结构 相似 的 数据 模型 。 可 以 使 用 
Java 或 者 C 来 进行 编程 接 入 。ZooKeeper 系统 模型 如 图 6-5 所 示 。 





图 6-5 ZooKeeper 系统 模型 


ZooKeeper 保证 客户 端 将 在 一 个 时 间 间 隔 范围 内 获得 服务 器 的 更 新 信息 ， 或 者 服务 器 失 
效 的 信息 。 但 由 于 网 络 延 时 等 原因 ，ZooKeeper 不 能 保证 两 个 客户 端 能 同时 得 到 刚 更 新 的 数 
据 ， 如 果 需 要 最 新 数据 ， 应 该 在 读数 据 之 前 调用 sync0 接 口 。 


6.4.3 Spark 流 式 计算 

对 采集 到 的 数据 进行 实时 分 析 ， 选 用 Apache 的 Spark， 在 Spark2.x 中 ，Spark Streaming 
获得 了 比较 全 面 的 升级 ， 称 为 Structured Streaming。 

在 2.x 中 ， 提 出 了 一 个 叫做 continuous applications 连续 应 用 程序 的 概念 。 如 图 6-6 所 
示 ， 数 据 从 Kafka 中 流 进来 ， 通 过 ETL 操作 进行 数据 清洗 ， 清 洗 出 来 作为 目标 数据 进行 进 一 
步 处 理 ， 可 能 是 机 器 学 习 ， 也 可 能 是 交互 式 查询 ， 也 有 可 能 直接 把 数据 存在 数据 库 或 者 其 他 
外 部 存储 设备 ， 也 有 可 能 是 直接 交 给 已 有 的 应 用 程序 。 也 就 是 说 Spark Streaming 在 获得 数据 
后 ， 能 把 全 部 处 理 环节 串联 起 来 ， 称 之 为 端 到 端 (End to end) 处 理 。 





Kaftac > ETL = < 


TEN = 


Database 
ML Model Reporting 











= Applications 


6-6 连续 应 用 程序 数据 流 处 理 
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对 SparkStreaming 来 说 ，Continuous 还 有 另 一 层 含义 ， 即 运行 在 DataSet 和 Dataframe 之 
上 。 基 本 观点 是 把 数据 看 成 一 张 表 ， 默 认 情 况 下 DataSet 和 Dataframe 中 的 表 是 有 边界 的 ， 而 
在 流 处 理 中 是 无 边界 的 。 对 于 Spark Streaming 来 说 ， 是 将 数据 抽象 为 了 一 个 没有 边界 的 表 。 

这 个 做 法 有 一 个 非常 大 的 好 处 ， 我 们 知道 ， 目 前 Spark Streaming 是 直接 依赖 RDD， 优 
化 需要 自己 完成 ， 使 用 DataSet 和 Dataframe 就 可 以 利用 Tungsten 引擎 来 进行 优化 。 把 
Tungsten 等 优化 技术 轻而易举 地 应 用 起 来 ， 可 以 说 是 在 技术 的 运用 上 促进 化 学 反应 的 发 生 。 

在 API 方面 ， 引入 和 流 函 数 的 封装 。Kafka 中 读 取 的 数据 ， 通 过 stream 方法 形成 流 ， 可 
以 直接 与 JDBC 中 读 取 的 数据 在 DataSet 层面 就 进行 Join， 不 用 使 用 transform 或 者 foreach 
RDD 方法 。stream 方法 底层 依赖 Dataset 和 Dataframe， 集 成 了 Spark SQL 和 Dataset 几乎 所 
有 的 功能 。 


6.4.4 ”数据 输出 

对 分 析 后 的 结果 持久 化 ， 可 以 使 用 HDFS、HBase、MongoDB。 

HDFS 是 一 个 主 / 从 (Master/Slave) 体系 结构 ， 从 最 终 用 户 的 角度 来 看 ， 它 就 像 传统 的 文 
件 系统 一 样 ， 可 以 通过 目录 路 径 对 文件 执行 CRUD (Create、Read、Update 和 Delete) 操 
作 。 但 由 于 分 布 式 存储 的 性 质 ，HDFS 集群 拥有 一 个 NameNode 和 一 些 DataNode。 
NameNode 管理 文件 系统 的 元 数据 ，DataNode 存储 实际 的 数据 。 客 户 端 通过 与 NameNode 和 
DataNodes 的 交互 访问 文件 系统 。 客 户 端 联系 NameNode 以 获取 文件 的 元 数据 ， 而 真正 的 文 
件 IO 操作 是 直接 和 DataNode 进行 交互 的 。 

HBase 是 Apache Hadoop 的 数据 库 ， 能 够 对 大 型 数据 提供 随机 、 实 时 的 读 写 访问 。 
HBase 的 目标 是 存储 并 处 理 大 型 的 数据 ，HBase 是 一 个 开源 的 、 分 布 式 的 、 多 版 本 的 、 面 向 
列 的 存储 模型 ， 它 存储 的 是 松散 型 数据 。HBase 是 一 个 构建 在 HDFS 上 的 分 布 式 列 存储 系 
统 。HBase 是 基于 Google BigTable 模型 开发 的 ， 是 典型 的 key/value 系统 。HBase 是 Apache 
Hadoop 生态 系统 中 的 重要 一 员 ， 主 要 用 于 海量 结构 化 数据 存储 。 从 逻辑 上 讲 ，HBase 将 数据 
按照 表 、 行 和 列 进行 存储 。 与 Hadoop 一 样 ，HBase 目标 主要 依靠 横向 扩展 ， 通 过 不 断 增 加 
廉价 的 商用 服务 器 ， 来 增加 计算 和 存储 能 力 。 

MongoDB 是 一 个 基于 分 布 式 文件 存储 的 数据 库 。 由 C++ 语 言 编 写 ， 旨 在 为 Web 应 用 提 
供 可 扩展 的 高 性 能 数据 存储 解决 方案 。MongoDB 是 一 个 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 
的 产品 ， 是 非 关 系数 据 库 当中 功能 最 丰富 、 最 像 关系 数据 库 的 。 它 支持 的 数据 结构 非常 松 
散 ， 是 类 似 JSON 的 BSON 格式 ， 因 此 可 以 存储 比较 复杂 的 数据 类 型 。MongoDB 最 大 的 特 
点 是 它 支持 的 查询 语言 非常 强大 ， 其 语法 有 点 类 似 于 面向 对 象 的 查询 语言 ， 几 乎 可 以 实现 类 
似 关 系数 据 库 单 表 查询 的 绝 大 部 分 功能 ， 而 且 还 支持 对 数据 建立 索引 。 





6.4.5 日 志 摄 取 
Web 日 志 包 含 着 网 站 最 重要 的 信息 ， 通 过 日 志 分 析 ， 我 们 可 以 知道 网 站 的 访问 量 ， 哪 个 
网 页 访问 人 数 最 多 ， 哪 个 网 页 最 有 价值 等 。 一 般 中 型 的 网 站 (10W 的 PV 以 上 ) ， 每 天 会 产 
生 1GB 以 上 Web 日 志文 件 。 大 型 或 超大 型 的 网 站 ， 可 能 每 小 时 就 会 产生 10GB 的 数据 量 。 
Web 日 志 由 Web 服务 器 产生 ， 可 能 是 Nginx、Apache、Tomcat 等 。 从 Web 日 志 中 ,我 
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们 可 以 获取 网 站 每 类 页 面 的 PV 值 (PageView， 页 面 访问 量 ) 、 独 立 IP 数 。 稍 微 复杂 一 些 
的 ， 可 以 计算 得 出 用 户 所 检索 的 关键 词 排 行 榜 、 用 户 停留 时 间 最 高 的 页 面 等 。 更 复杂 的 ， 构 
建 广告 点 击 模型 、 分 析 用 户 行为 特征 等 。 

在 Web 日 志 中 ， 每 条 日 志 通 常 代 表 着 用 户 的 一 次 访问 行为 。 例 如 ， 下 面 就 是 一 条 nginx 


日 志 : 


这 条 日 志 可 以 拆 解 为 以 下 8 个 变量 : 

@ remote_addr: 记录 客户 端的 ip 地 址 ，222.68.172.190。 

@ remote _user: 记录 客户 端 用 户 名 称 ，--。 

@ time_ local: 记录 访问 时 间 与 时 区 ，[18/Sep/2013:06:49:57 +0000]。 

@ request 记录 请 求 的 URL 与 HTTP 协议 ，“GET /images/my.jpg HTTP/1.1”。 

@ status: 记录 请 求 状态 ， 成 功 是 200，200。 

@ body_bytes_sent: 记录 发 送 给 客户 端 文件 主体 内 容 大 小 ，19939。 

@ http_referer: 用 来 记录 从 那个 页 面 链接 访问 过 来 的 ，http://www.angularjs.cn/A00n。 

@ http_user agent: 记录 客户 浏览 器 的 相关 信息 ，Mozilla/5.0 (Windows NT 6.1) 


AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36。 
其 他 更 多 的 信息 ， 则 要 用 其 他 手段 去 获取 ， 通 过 JS 代码 单独 发 送 请 求 ， 使 用 Cookies 记 
录用 户 的 访问 信息 。 利 用 这 些 日 志 信息 ， 我 们 可 以 深入 挖掘 网 站 的 秘密 。 
1. 少量 数据 的 情况 


少量 数据 的 情况 (10MB、100MB、10GB) ， 在 单机 处 理 尚 能 忍受 的 时 候 ， 我 们 可 以 直 
接 利 用 各 种 UNIX/Linux 工具 ，awk、grep、sort、join 等 都 是 日 志 分 析 的 利器 ， 再 配合 perl、 
Python、 正 则 表达 式 等 工具 ， 基 本 就 可 以 解决 所 有 的 问题 。 


2. 海量 数据 的 情况 


当 数 据 量 每 天 以 10GB、100GB 增长 的 时 候 ， 单 机 处 理 能 力 已 经 不 能 满足 需求 。 我 们 就 
需要 增加 系统 的 复杂 性 ， 用 计算 机 集群 、 存 储 阵 列 来 解决 。 在 Hadoop 出 现 之 前 ， 海 量 数据 
存储 和 海量 日 志 分 析 都 是 非常 困难 的 。 只 有 少数 一 些 公 司 ， 掌 握 着 高 效 的 并 行 计算 、 分 步 式 
计算 、 分 步 式 存储 的 核心 技术 。 


3. 日 志 摄取 


日 志 摄 取 应 用 被 用 作 消 费 应 用 日 志 ， 例 如 Web 访问 日 志 。 为 了 简化 使 用 场景 ， 提 供 一 
个 Web 访问 日 志 ， 模 拟 访客 浏览 产品 目录 ， 这 些 日 志 代 表 了 单 击 流 日 志 ， 既 用 作 长 时 处 理 ， 
也 用 作 实时 推荐 。 架 构 有 两 个 选择 : 第 一 个 是 以 Flume 来 传输 日 志 ; 第 二 个 是 以 ELK 来 创建 
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访问 分 析 。 

ELK 是 Elasticsearch、Logstash、Kibana 的 简称 ， 这 三 者 是 核心 套件 ， 但 并 非 全 部 。 

@ 。 Elasticsearch 是 实时 全 文 搜索 和 分 析 引擎 ， 提 供 搜集 、 分 析 、 存 储 数据 三 大 功能 。 
它 是 一 套 开 放 REST 和 JAVA API 等 结构 ， 提 供 高 效 搜索 功能 ， 可 扩展 的 分 布 式 系 
统 。 它 构建 于 Apache Lucene 搜索 引擎 库 之 上 。 

@ Logstash 是 一 个 用 来 搜集 、 分 析 、 过 滤 日 志 的 工具 。 它 支持 几乎 任何 类 型 的 日 志 ， 
包括 系统 日 志 、 错 误 日 志和 自 定义 应 用 程序 日 志 。 它 可 以 从 许多 来 源 接收 日 志 ， 这 
些 来 源 包括 syslog、 消 息 传 递 (例如 RabbitMQ ) 和 JMX， 它 能 够 以 多 种 方式 输出 
数据 ， 包 括 电子 邮件 、websockets 和 Elasticsearch。 

@ Kibana 是 一 个 基于 Web 的 图 形 界面 ， 用 于 搜索 、 分 析 和 可 视 化 存储 在 Elasticsearch 
中 的 日 志 数据 。 它 利用 Elasticsearch 的 REST 接口 来 检索 数据 ， 不 仅 允 许 用 户 创建 
他 们 自己 的 数据 的 定制 仪表 板 视图 ， 还 允许 他 们 以 特殊 的 方式 查询 和 过 滤 数 据 。 


ELK 的 一 种 架构 如 图 6-7 所 示 。 
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6-7 ELK 一 种 架构 


架构 引入 了 消息 队列 机 制 ， 位 于 各 个 节点 上 的 Logstash Agent 先 将 数据 /日 志 传递 给 
Kafka (或 者 Redis) ， 并 将 队列 中 消息 或 数据 间接 传递 给 Logstash，Logstash 过 滤 、 分 析 后 
将 数据 传递 给 Elasticsearch 存储 。 最 后 由 Kibana 将 日 志和 数据 呈现 给 用 户 。 因 为 引入 了 
Kafka (或 者 Redis) ， 所 以 即使 远 端 Logstash Server 因 故 障 停止 运行 ， 数 据 将 会 先 被 存储 下 
来 ， 从 而 避免 数据 丢失 。 

图 6-8 展示 了 ELK 和 Flume 是 如 何 处 理 日 志 的 。 


























图 6-8 ELK 结合 Flume 处 理 日 志 
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在 架构 中 使 用 ELK ， 因 为 LEK 的 三 个 产品 无 颖 集成 ， 能 够 比 使 用 Flume 给 我 们 更 多 的 
价值 。 


4. KPI 指标 设计 

在 进行 海量 Web 日 志 分 析 ， 提 取 KPI 数据 时 ，KPI 指标 设计 如 下 : 
@ PV (PageView ) : 页 面 访问 量 统计 。 

IP: 页 面 独立 IP 的 访问 量 统计 。 

Time: 用 户 每 小 时 PV 的 统计 。 

Source: 用 户 来 源 域名 的 统计 。 

Browser: 用 户 的 访问 设备 统计 。 


6.4.6 ”机 器 学 习 

机 器 学 习 应 用 接收 数据 流 ， 构 建 推荐 引擎 。 应 用 使 用 一 个 基本 的 算法 来 基于 Spark MLlib 
介绍 机 器 学 习 的 概念 (如 第 5 章 的 Spark MLlib) 。 

图 6-9 展示 了 该 机 器 学 习 应 用 如 何 使 用 Kafka 接收 数据 ， 然 后 发 送 给 Spark 处 理 ， 最 后 
在 Elasticsearch 中 建立 索引 为 将 来 使 用 做 准备 。 












Logs Spark Mllib 
Search Engine Processing 
Social data Application 


图 6-9 Spark MLlib 使 用 Kafka 接收 数据 


6.4.7 ”处 理 引擎 
处 理 引 擎 是 大 数据 处 理 架构 的 心脏 ， 它 接收 各 种 源 的 数据 ， 代 理 合适 模型 的 处 理 。 
图 6-10 展示 了 由 Hive 组 成 的 处 理 引 擎 如 何 接收 数据 ， 以 及 Spark 的 实时 / 准 实 时 处 理 。 


Spark 


wo _ 恒 辐 和 ee ee 


| Management 


HDFS 
Hadoop Distributed File System 


图 6-10 由 Hive 组 成 的 处 理 引擎 接收 数据 
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这 里 使 用 Kafka 与 Logstash 结合 把 数据 分 发 给 Elasticsearch。Spark 位 于 Hadoop 集群 
的 顶端 ， 但 不 是 必需 的 。 为 了 简化 起 见 ， 可 以 不 建立 Hadoop 集群 ， 而 是 以 standalone 模式 
运行 Spark。 显 然 ， 应 用 同样 可 以 部 署 在 所 选择 的 Hadoop 发 布 版 上 。 





Spark 单个 机 器 集群 部 署 


除了 在 Mesos 或 YARN 集群 上 运行 之 外 ，Spark 还 提供 一 个 简单 的 独立 部 署 的 模块 。 
你 可 以 通过 手动 开始 Master 和 Workers 来 启动 一 个 独立 的 集群 ， 你 也 可 以 利用 我 们 提供 的 脚 
本 ， 运 行 这 些 进程 在 单个 机 器 上 进行 测试 。 

1. 安装 Spark 独立 集群 

部 署 Spark 最 简单 的 方法 就 是 运行 /make-distribution.sh 脚本 来 生成 一 个 二 进 制 发 行 版 。 
这 个 版 本 能 部 署 在 任意 运行 Java 的 机 子 上 ， 不 需要 安装 Scala。 

建议 的 步 聚 是 先 在 一 个 节点 部 署 并 启动 Master， 获 得 master spark URL， 在 dist/ 这 个 目 
录 下 修改 conf/spark-env.sh， 然 后 再 部 署 到 其 他 的 节点 上 。 

2. 手动 启动 集群 

通过 如 下 命令 启动 单独 模式 的 Master 服务 : 
./bin/start-master.sh 

- 旦 启动 ，Master 就 会 输出 spark://IP:PORT， 以 提示 连接 Workers 的 方式 。 也 可 以 通过 

参数 “master” 给 SparkContext 来 连接 集群 的 作业 。 你 可 以 在 Master 的 Web 管理 界面 上 看 到 
这 样 的 地 址 ， 默 认 是 http://localhost:8080。 

同样 ， 你 可 以 启动 一 个 或 者 多 个 Worker， 通 过 下 面 的 语句 使 之 和 Master 建立 连接 : 
./spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT 


启动 一 个 Worker 后 ， 查 看 Master 的 Web 管理 界面 〈 默 认 http:Wlocalhost:8080) ， 上 面 
列 出 了 新 近 加 入 的 节点 的 CPU 和 内 存 的 信息 〈 不 包括 给 操作 系统 预 留 的 内 存 空 间 ) ， 如 
表 6-4 所 示 。 


表 64 ”Master 和 Worker 的 一 些 配置 选项 














-iTIP,--ip IP 要 监听 的 IP 地 址 或 者 DNS 机 器 名 

-p PORT,--port PORT 要 监听 的 端口 ， 默 认 : master 7077。Worker 随机 

--Webui-port PORT | Web UI 端口 ， 默 认 : master 8080。Worker 8081 

-C CORES,--cores 作业 可 用 的 CPU 内 核 数量 ， 默 认 : 所 有 可 用 。 只 在 Worker 上 

CORES 

-m MEM,-—memory 作业 可 使 用 的 内 存 容量 ， 默 认 格式 1000MB 或 者 2GB， 默 认 : 所 有 RAM 去 掉 
MEM 给 操作 系统 用 的 1GB。 只 在 Worker 上 











-d DIR,--work-dir DIR _ | 伸缩 空间 和 日 志 输入 的 目录 路 径 ， 默 认 :; SPARK_HOME/work。 只 在 Worker 上 
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3. 集群 启动 脚本 
通过 脚本 启动 Spark 独立 集群 时 ， 需 要 在 Spark 目录 下 创建 一 个 文件 conf/slaves， 列 出 
所 有 启动 的 Spark workers 的 主机 名 ， 每 行 一 条 记录 。Master 必须 能 够 实现 通过 ssh〈 使 用 私 
钥 ) 访问 Worker 机 器 ， 可 以 使 用 ssh localhost 来 测试 。 
- 旦 建立 了 这 个 档案 ， 可 以 通过 以 下 脚本 停止 或 启动 集群 ， 这 些 脚 本 基于 Hadoop 的 部 


署 脚本 ， 在 SPARK_HOME/bin 目录 : 
@ bin/start-master.sh: 在 机 器 上 执行 脚本 ， 启 动 Master 。 


bin/start-slaves.sh: 启动 conf/slaves 中 指定 的 每 一 个 Slave 。 
bin/start-all.sh: 同时 启动 Master 以 及 上 面 文件 中 指定 的 Slave。 
bin/stop-master.sh: 停止 通过 bin/start-master.sh 脚本 启动 的 Master。 
bin/stop-slaves.sh: 停止 通过 bin/start-slaves.sh 启动 的 Slave。 
bin/stop-all.sh: 停止 上 述 的 两 种 启动 脚本 启动 的 Master 和 Slave。 


注意 : 只 能 在 运行 Spark 的 Master 主机 上 执行 上 述 脚 本 ， 而 不 是 你 的 本 地 机 器 。 
可 以 通过 conf/spark-env.sh 进一步 配置 整个 集群 的 环境 变量 。 这 个 文件 可 以 用 conf/spark- 
env.sh.template 当 模 版 复制 生成 。 然 后 ， 复 制 到 所 有 的 Worker 机 器 上 才 奏 效 。 表 6-5 给 出 一 


些 可 选 的 参数 以 及 含义 。 


表 6-5 配置 集群 一 些 可 选 的 参数 以 及 含义 


环境 变量 

SPARK_MASTER IP 
SPARK_MASTER_PORT 

SPARK MASTER WEBUI PORT 
SPARK_ WORKER_PORT 
SPARK WORKER_DIR 
SPARK_WORKER_CORES 
SPARK_WORKER_MEMORY 


SPARK WORKER WEBUI PORT 
SPARK WORKER INSTANCES 


含义 

绑 定 一 个 外 部 IP 给 Master 

从 另外 一 个 端口 启动 Master， 默 认 : 7077 

Master 的 Web UL 端口 ， 默 认 ，8080 

启动 Spark worker 的 专用 端口 ， 默 认 :; 随机 

伸缩 空间 和 日 志 输入 的 目录 路 径 ， 默 认 ，SPARK_HOME/work 
作业 可 用 的 CPU 内 核 数量 ， 默 认 : 所 有 可 用 的 

作业 可 使 用 的 内 存 容 量 ， 默 认 格式 1000MB 或 者 2GB， 默 
认 : 所 有 RAM 去 掉 给 操作 系统 用 的 1 GB。 注 意 : 每 个 作 
业 自 己 的 内 存 空 间 由 SPARK_MEM 决定 

Worker 的 Web Ul 启动 端口 ， 默 认 : 8081 

没 在 机 器 上 运行 Worker 数量 ， 默 认 :1。 当 你 有 一 个 非常 
强大 的 计算 机 的 时 候 和 需要 多 个 Spark worker 进程 的 时 候 
你 可 以 修改 这 个 默认 值 大 于 1。 如 果 你 设置 了 这 个 值 。 要 
确保 SPARK_WORKER_CORE 明确 限制 每 一 个 r worker 的 
核心 数 ， 和 否则 每 个 Worker 将 尝试 使 用 所 有 的 核心 





SPARK DAEMON MEMORY 


分 配给 Spark master 和 Worker 守护 进程 的 内 存 空间 ， 默 
认 : 512MB 





SPARK _ DAEMON JAVA_OPTS 


Spark master 和 Worker 守护 进程 的 JVM 选项 ， 默 认 : 
none 














Master 和 Workers。 


| 启动 脚本 目前 不 支持 Windows。 要 在 Windows 上 运行 一 个 Spark 集群 ， 需 要 手动 启动 
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4. 集群 连接 应 用 程序 

在 Spark 集群 上 运行 一 个 应 用 ， 只 需 通 过 Master 的 spark:WIP:PORT 链接 传递 到 
SparkContext 构造 器 。 

在 集群 上 运行 交互 式 的 Spark 命令 , 运行 如 下 命令 : 
MASTER=spark://IP:PORT ./spark-shell 

注意 ， 如 果 你 在 一 个 Spark 集群 上 运行 了 spark-shell 脚本 ，spark-shell 将 通过 在 
conf/spark-env.sh 下 的 SPARK_MASTER IP 和 SPARK_MASTER_PORT 自动 设置 Master 。 

也 可 以 传递 一 个 参数 -c <numCores> 来 控制 spark-shell 在 集群 上 使 用 的 核心 数量 。 

5. 资源 调度 

单独 部 署 模式 目前 只 支持 FIFO 作业 调度 策略 。 不 过 ， 为 了 允许 多 并 发 执行 ， 你 可 以 控 
制 每 一 个 应 用 可 获得 资源 的 最 大 值 。 默 认 情况 下 ， 如 果 系 统 中 只 运行 一 个 应 用 ， 它 就 会 获得 
所 有 资源 。 使 用 类 似 System.setProperty(“spark.cores.max”,“10”) 的 语句 可 以 获得 内 核 的 数 
量 。 这 个 数值 在 初始 化 SparkContext 之 前 必须 设置 好 。 


6. 监控 和 日 志 
Spark 单独 部 署 模式 提供 了 一 个 基于 Web 的 集群 监视 器 。Master 和 每 一 个 Worker 都 会 有 
-个 Web UI 来 显示 集群 的 统计 信息 。 默 认 情 况 下 ， 可 以 通过 8080 端口 访问 Master 的 Web 
UI。 当 然 也 可 以 通过 配置 文件 或 者 命令 来 修改 这 个 端口 值 。 
另外 ， 每 个 Slave 节点 上 作业 运行 的 日 志 也 会 详细 地 记录 到 默认 的 SPARK_HOME/work 
目录 下 。 每 个 作业 会 对 应 两 个 文件 :stdout 和 stderr， 包 含 了 控制 台 上 的 所 有 的 历史 输出 。 


7. 和 Hadoop 同时 运行 

Spark 作为 一 个 独立 的 服务 ， 可 以 和 现 有 的 Hadoop 集群 同时 运行 。 通过 hdfs:// URL， 
Spark 可 以 访问 Hadoop 集群 的 HDFS 上 的 数据 。 比 如 ， 地 址 可 以 写成 
hdfs://<namenode>:9000/path， 从 Namenode 的 Web UI 可 以 获得 更 确切 的 URL。 或 者 ， 专 门 
为 Spark 搭建 一 个 集群 ， 通 过 网 络 访问 其 他 HDFS 上 的 数据 ， 这 样 肯 定 不 如 访问 本 地 数据 速 
度 快 ， 除 非 是 都 在 同一 个 局 域 网 内 。 比 如 ， 几 台 Spark 机 器 和 Hadoop 集群 在 同一 机 架 上 。 


.本章 小 结 


将 大 数据 架构 分 成 三 个 部 分 : 批 处 理 、 流 处 理 和 服务 架构 。 当 处 理 海量 数据 的 时 候 ， 
Spark 带 来 了 大 量 的 解决 方案 ， 但 也 为 资源 分 配 和 管理 存储 数据 带 来 了 挑战 ， 我 们 总 是 希望 
在 保持 最 小 时 延 的 同时 而 降低 成 本 。 当 处 理 海量 成 分 混杂 数据 的 时 候 ， 社 交 网 络 是 复杂 性 的 
代表 。 除 了 数据 结构 ， 还 需要 将 数据 分 类 成 逻辑 上 的 子 集 以 便 增强 数据 处 理 的 效果 。 考 虑 情 
绪 分 析 的 例子 ， 从 大 数据 集 的 非 结构 化 数据 中 得 到 有 价值 信息 的 位 置 来 组 成 数据 。 大 量 的 IT 
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组 织 如 今 都 有 自己 的 数据 架构 ， 因 为 都 依赖 于 传统 的 数据 架构 ， 处 理 多 数据 源 已 不 再 新 鲜 ， 
这 些 架 构 已 经 连接 了 多 维度 的 数据 源 ， 例 如 CRM 系统 、 文 件 系统 和 其 他 商用 系统 。 主 要 运 
行 的 关系 型 数据 库 有 Oracle、DB2 和 Microsoft SQL 。 

本 章 从 典型 商务 使 用 场景 出 发 ， 简 要 介绍 了 Spark 的 三 种 分 布 式 部 署 模 式 ， 然 后 详细 介 


绍 了 创建 大 数据 架构 的 组 成 元 素 与 流程 ， 最 后 以 Spark 单机 集群 部 署 为 例 介绍 了 集群 部 署 问 
题 与 步骤 。 
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第 7 章 
<Spark 大 数据 处 理 桑 例 分 析 > 


Spark 作为 Apache 顶级 的 开源 项 目 ， 项 目 主页 参见 http:/spark.apache.org。 在 友人 代 计算 、 
交互 式 查 询 计 算 以 及 批量 流 计算 方面 都 有 相关 的 子 项 目 ， 如 Shark、Spark Streaming、 
MLbase、GraphX、SparkR 等 。 

随 着 企业 数据 量 的 增长 ， 对 大 数据 的 处 理 和 分 析 已 经 成 为 企业 的 迫切 需求 。Spark 作为 
Hadoop 的 替代 者 ， 引 起 学 术 界 和 工业 界 的 普遍 兴趣 ， 大 量 应 用 在 工业 界 落地 ， 许 多 科研 院 校 
开始 了 对 Spark 的 研究 。 涉 及 Benchmark、SQL、 并 行 算 法 、 性 能 优化 、 高 可 用 性 等 多 个 方 
面 。 

互联 网 用 户 群 体 庞大 ， 需 要 存储 大 数据 并 进行 数据 分 析 ，Spark 能 够 支持 多 范式 的 数据 
分 析 ， 解 决 了 大 数据 分 析 中 迫在眉睫 的 问题 。 例 如 ， 国 外 Cloudera、MapR 等 大 数据 厂商 全 
面 支持 Spark， 微 策略 等 老牌 BI 厂商 也 和 Databricks 达成 合作 关系 ，Yahoo! 使 用 Spark 进行 
日 志 分 析 并 积极 回馈 社区 ，Amazon 在 云端 使 用 Spark 进行 分 析 。 国 内 同样 得 到 很 多 公司 的 青 
睐 ， 淘 宝 构 建 Spark on Yarn 进行 用 户 交 易 数 据 分 析 ， 使 用 GraphX 进行 图 谱 分 析 。 网 易 用 
Spark 和 Shark 对 海量 数据 进行 报表 和 查询 。 腾 讯 使 用 Spark 进行 精准 广告 推荐 。 下 面 将 选取 
代表 性 的 Spark 应 用 案例 进行 分 析 00。 


Spark on Amazon EMR 


7.1.1 _ Amazon EMR 

利用 Amazon EMR， 你 可 以 分 析 和 处 理 大 量 数据 。 它 通过 在 Amazon 云 上 运行 的 虚拟 
服务 器 集群 中 分 配 计 算 工作 来 实现 此 目的 。 使 用 名 为 Hadoop 的 开源 框架 管理 该 集群 。 

Hadoop 使 用 称 为 MapReduce 的 分 布 式 处 理 架 构 ， 其 中 任务 被 映射 到 一 组 服务 器 以 供 处 
理 。 然 后 ， 由 这 些 服务 器 执行 的 计算 结果 将 减少 为 单个 输出 集 。 其 中 一 个 节点 被 指定 为 主 节 
点 ， 它 控制 任务 的 分 配 Co3。 

Amazon EMR 增强 了 Hadoop 和 其 他 开源 应 用 程序 ， 以 便 与 AWS 无 颖 协作。 例如 ， 
在 Amazon EMR 上 运行 的 Hadoop 集群 ， 使 用 EC2 实例 作为 虚拟 Linux 服务 器 用 于 主 节 
点 和 从 属 节点 ， 将 Amazon S3 用 于 输入 和 输出 数据 的 批量 存储 ， 并 将 CloudWatch 用 于 监 
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控 集群 性 能 和 发 出 警报 。 你 还 可 以 使 用 Amazon EMR 和 Hive 将 数据 迁移 到 DynamoDB 
以 及 从 中 迁 出 。 所 有 这 些 操作 都 由 启动 和 管理 Hadoop 集群 的 Amazon EMR 控制 软件 进行 
编排 。 这 个 流程 名 为 Amazon EMR 集群 。 如 图 7-1 所 示 为 Amazon EMR 如 何 与 其 他 AWS 


服务 交互 PC 。 
人 ~、 


Amazon CloudWatch The Amazon EMR job flow 
Tuns on a cluster of 
Amazon EC2 Instances 





Amazon EC2 Instance 





Amazon Simple 
Storage Service 


\ (S3) Amazon EMR Job Flow 


图 7-1 Amazon EMR 如 何 与 其 他 AWS 服务 交互 


Amazon EMR 本 身 支 持 Hadoop YARN 上 的 Apache Spark， 可 以 从 AWS 管理 控制 
台 、AWS CLI 或 Amazon EMR API 轻松 快速 地 创建 托管 的 Apache Spark 集群 。 此 外 ， 你 
还 可 以 利用 其 他 Amazon EMR 功能 ， 包 括 使 用 Amazon EMR 文件 系统 (EMRFS) 快速 连 
接 Amazon S3、 与 Amazon EC2 竞价 型 市 场 集成 ， 以 及 使 用 Auto Scaling 在 集群 中 添加 或 
移 除 实例 。 借 助 Apache Spark， 你 还 可 以 使 用 Apache Zeppelin 创建 交互 式 和 协作 式 笔 记 本 
电脑 以 进行 数据 探索 。 

借助 Amazon EMR Step API 提交 Apache Spark 作业 ， 结 合 使 用 Apache Spark 和 
EMRFS 以 直接 访问 Amazon S3 中 的 数据 ， 使 用 Amazon EC2 竞价 型 容量 节约 成 本 ， 使 用 
Auto Scaling 动态 添加 和 移 除 容量 ， 并 根据 你 的 工作 负载 启动 长 期 运行 的 集群 或 临时 集群 。 
你 还 可 以 使 用 Amazon EMR 安全 、 配 置 Spark 加 密 。Amazon EMR 在 Hadoop YARN 上 安 
装 和 管理 Apache Spark， 你 还 可 以 在 集群 中 添加 其 他 Hadoop 生态 系统 应 用 程序 。 








7.1.2 配置 Spark 

要 配置 Spark， 你 需要 在 创建 集群 时 通过 提供 参数 的 方式 进行 。 根 据 位 于 GitHub 的 引 
导 操 作 ， 配 置 Amazon EMR 上 的 Spark。CLI 和 控制 台 将 接收 此 处 记录 的 选项 作为 参数 。 你 
可 以 配置 Apache Spark 文档 给 出 的 Spark 配置 主题 中 列 出 的 任意 选项 ， 你 可 以 在 
$SPARK_CONF_DIR/spark-defaults.conf 配置 文件 中 查看 现 有 集群 的 这 些 配 置 。 在 创建 集群 时 
提供 以 下 参数 : 
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-d key=value: 提供 SparkConf 设置 以 履 盖 spark-defaults.conf。 要 指定 多 个 选项 ， 

请 在 每 个 键 值 对 前 插入 -d。 

-CS3_Path: 存储 在 Amazon S3 上 的 spark-install 配置 文件 的 位 置 。 

-g: 为 Spark 安装 Ganglia 指标 配置 。 

-a: 将 spark-assembly-*jar 放 在 Spark 类 路 径 中 所 有 系统 JAR 的 前 面 。 

-u S3_Path: 将 给 定 S3 URI 处 的 JAR 添加 到 Spark 类 路 径 中 。 此 选项 的 优先 级 

高 于 -a 选项 ， 因 此 ， 如 果 与 -a 一 同 指定 ， 添 加 的 JAR 将 优先 于 spark-assembly- 

二 

@ -1 logging_ level: 为 驱动 程序 的 log4j.logger.org.apache.spark 设置 日 志 记录 级 别 。 选 
项 有 OFF、ERROR、WARN、INFO、DEBUG 或 ALL。 默 认为 INFO。 

@ -h: 使 用 Amazon EMR 自 定义 Hive JAR 代替 Spark 提供 的 JAR。 

@ -x: 为 专用 Spark 作业 利用 率 设置 默认 Spark 配置 (例如 : 每 个 节点 、 所 有 虚拟 核 

心 和 内 存 、 所 有 核心 节点 、1 个 执行 者 ) 。 


使 用 下 面 的 命令 创建 一 个 安装 了 Spark， 且 spark.executor.memory 设 为 2GB 的 集群 : 


使 用 控制 台 创 建 一 个 spark.executor.memory 设 为 2GB 的 集群 : 


(1) 通过 以 下 网 址 打开 Amazon EMR 控制 台 : https://console.aws.amazon.com/elasticmapreduce/。 

(2) 选择 Create cluster。 

(3) 对 于 Software Configuration 字段 ， 选 择 Amazon AMI Version 3.9.0 或 更 高 版 本 。 

(4) 对 于 Applications to be installed 字段 ， 从 列表 中 选择 Spark， 然 后 选择 Configure 
and add， 然 后 将 参数 spark.executormemory=2G 放 入 参数 框 内 并 选择 Add。 

(5) 根据 需要 选择 其 他 选项 ， 然 后 选择 Create cluster。 


7.1.3 ”以 交互 方式 或 批 处 理 模式 使 用 Spark 

Spark 内 在 支持 用 Scala、Python 和 Java 编写 的 应 用 程序 ， 包 含 几 个 用 于 SQL (Spark 
SQL) 、 机 器 学 习 (MLIib) 、 流 式 处 理 〈Spark Streaming) 和 图 形 处 理 〈GraphX) 的 紧密 集 
成 库 。 这 些 工 具 可 让 你 更 轻松 地 在 各 种 使 用 案例 中 充分 发 挥 Spark 框架 的 优势 。 

Spark 可 与 Amazon EMR 中 可 用 的 其 他 Hadoop 应 用 程序 一 同安 装 ， 而 且 ， 它 还 能 借 
助 EMR 文件 系统 (EMRFS) 直接 访问 Amazon S3 中 的 数据 。 此 外 ，Hive 也 与 Spark 集 
成 。 因 此 ， 我 们 可 以 通过 HiveContext 对 象 运行 使 用 Spark 的 Hive 脚本 。Hive 上 下 文 作 
为 sqlContext 包含 在 Spark 外 壳 中 。 

Amazon EMR 以 两 种 模式 运行 Spark 应 用 程序 : 
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@ 交互 式 
@ 。 批 处 理 


当 我 们 使 用 控制 台 或 AWS CLI 启动 长 时 间 运 行 的 集群 时 ， 可 以 通过 SSH 以 Hadoop 用 户 
身份 连接 到 主 节 点 ， 使 用 Spark 外 这 以 交互 方式 开发 并 运行 Spark 应 用 程序 。 与 批 处 理 环 境 
相 比 ， 以 交互 方式 使 用 Spark 能 够 让 我 们 更 轻松 地 对 Spark 应 用 程序 进行 原型 设计 或 测试 。 
在 交互 模式 下 成 功 修改 Spark 应 用 程序 后 ， 可 以 将 该 应 用 程序 JAR 或 Python 程序 放 到 
Amazon S3 上 集群 主 节点 的 本 地 文件 系统 上 。 然 后 ， 将 应 用 程序 作为 批 处 理工 作 流程 提交 。 

在 批 处 理 模式 中 ， 将 Spark 脚本 上 传 到 Amazon S3 或 本 地 主 节点 文件 系统 ， 然 后 将 此 
工作 作为 步骤 提交 到 集群 。Spark 步骤 可 提交 到 长 时 间 运 行 的 集群 或 暂时 性 集群 。 


7.1.4 使 用 Spark 创建 集群 
按照 7.1.2 节 过 程 创建 一 个 安装 了 Spark 的 集群 。 使 用 AWS CLI 启动 安装 了 Spark 的 集群 。 
使 用 下 面 的 命令 创建 集群 





注意 : 对 于 Windows， 将 上 述 Linux 行 继续 符 〈\) 替换 为 脱 字符 〈^) 。 
通过 RunJobFlowRequest 中 使 用 的 SupportedProductConfig 指定 Spark 作为 应 用 程序 。 
下 面 的 Java 程序 片段 显示 如 何 使 用 Spark 创建 集群 : 
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7.1.5 访问 Spark 外 壳 

Spark 外 壳 基 于 Scala REPL 〈 读 取 - 求 值 -输出 -循环 ) 。 它 让 你 能 够 以 交互 方式 创建 
Spark 程序 并 将 工作 提交 到 框架 。 可 以 通过 SSH 连接 主 节点 并 调用 spark-shell， 从 而 访问 
Spark shell (外 壳 ) 。 

默认 情况 下 ，Spark shell 创建 其 自己 的 SparkContext 对 象 ( 称 作 sc) 。 如 果 REPL 中 
需要 ， 可 以 使 用 此 上 下 文 。sqlContext 也 可 在 此 外 壳 中 使 用 ， 它 是 一 种 HiveContext。 

可 以 使 用 Spark shell 统计 存储 在 Amazon S3 上 某 个 文件 中 的 某 个 字符 串 的 出 现 次 数 。 
比如 下 面 的 示例 ， 使 用 sc 读 取 Amazon S3 中 的 textFile。 





Spark 创建 textFile 及 关联 的 数据 结构 。 然 后 ， 上 面 示例 会 统计 此 日 志文 件 中 包含 字符 
串 “cartoonnetwork.com” 的 行 数 : 





Spark 还 包含 一 个 基于 Python 的 外 过 pyspark， 你 可 以 用 它 来 设计 以 Python 编写 的 
Spark 程序 的 原型 。 与 使 用 spark-shell 的 方法 一 样 ， 在 主 节点 上 调用 pyspark 即 可 ; 它 包含 
同样 的 SparkContext 对 象 。 





Spark 创建 textFile 及 关联 的 数据 结构 。 然 后 ， 示 例会 统计 此 日 志文 件 中 包含 字符 串 
“cartoonnetwork.com” 的 行 数 。 
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7.1.6 添加 Spark 
可 以 使 用 Amazon EMR 步骤 向 安装 在 EMR 集群 上 的 Spark 框架 提交 工作 。 在 控制 台 和 
CLI 中 ， 使 用 Spark 应 用 程序 ， 借 助 API， 通 过 script-runnerjar 调用 spark-submit。 如 果 选 择 
使 用 客户 端 部 署 模式 向 Spark 部 署 工作 ， 应 用 程序 文件 必须 位 于 EMR 集群 上 的 本 地 路 径 中 。 
使 用 控制 台 提交 Spark 步骤 说 明 如 下 : 


(1) 通过 以 下 网 址 打开 Amazon EMR 控制 台 : https://console.aws.amazon.convelasticmapreduce/。 
(2) 在 Cluster List 中 ， 选 择 你 的 集群 的 名 称 。 

(3) 滚动 到 Steps 部 分 并 展开 它 ， 然 后 选择 Add step。 

(4) 在 Add Step 对 话 框 中 按 顺 序 做 如 下 操作 : 


@ ”对 于 Step type， 选 择 Spark application。 

@ 对 于 Name， 接 受 默认 名 称 (Spark application ) 或 键入 新 名 称 。 

对 于 Deploy mode， 选 择 Cluster 或 Client 模式 。 集 群 模式 在 集群 上 启动 你 的 驱动 
程序 (对 于 基于 JVM 的 程序 ， 此 为 main() ) ， 而 客户 端 模式 本 地 启动 驱动 程序 。 
@ 指定 所 需 的 Spark-submit options。 

@ ”对 于 Application location， 指 定 应 用 程序 的 本 地 或 S3 URI 路 径 。 

@ 

@@ 


对 于 Arguments， 将 该 字段 保留 为 空白 。 
对 于 Action on failure， 接 受 默认 选项 (Continue ) 。 


集群 模式 能 够 使 用 S3 URI 提交 工作 。 客 户 端 模式 要 求 将 应 用 程序 放 到 集群 主 节点 的 本 
地 文件 系统 上 。 


(5) 选择 Add。 步 骤 会 出 现在 控制 台中 ， 其 状态 为 “Pending”。 

(6) 步骤 的 状态 会 随 着 步骤 的 运行 从 Pending 变 为 Running， 再 变 为 Completed。 要 
更 新 状态 ， 选 择 Actions 列 上 方 的 Refresh 图 标 。 

(7) 如 果 配置 了 日 志 记 录 ， 则 这 一 步 的 结果 将 放 在 Amazon EMR 控制 台 的 “Cluster 
Details” 页 面 上 的 步骤 旁边 的 Log Files 下 。 在 启动 集群 时 ， 可 以 选择 在 配置 的 日 志 存 储 桶 
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中 查找 步骤 信息 。 
在 创建 集群 时 提交 步骤 ， 或 使 用 aws emr add-steps 子 命令 在 现 有 集群 中 提交 步骤 。 
1. 使 用 create-cluster 


(1) Linux、UNIX 和 Mac OS X 用 户 : 





(2) Windows 用 户 : 


对 于 Windows， 将 上 述 Linux 行 继续 符 (\) 蔡 换 为 脱 字符 (^) 。 
2. 向 正在 运行 的 集群 添加 步骤 ,使 用 add-steps 
(1) Linux、UNIX 和 Mac OS X 用 户 : 


(2) Windows 用 户 : 








根据 需要 为 不 同 的 应 用 程序 设置 Spark 默认 配置 值 。 可 以 在 提交 应 用 程序 时 使 用 步骤 完 
成 此 操作 (实质 上 是 向 spark-submit 传递 选项 ) 。 例 如 ， 可 以 通过 更 改 
spark.executor.memory 来 更 改 为 执行 者 进程 分 配 的 内 存 ， 可 以 为 --executor-memory 开关 提 
供 类 似 下 面 的 参数 : 
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同样 地 ， 也 可 以 调节 --executor-cores 和 --driver-memory。 在 步骤 中 ， 可 以 向 步骤 提供 以 
下 参数 : 


还 可 以 使 用 --conf 选项 调节 没有 内 置 开关 的 设置 。 


了 .2 spark 在 AWSKrux 的 应 用 


作为 用 于 管理 客户 信息 的 数据 管理 平台 的 一 部 分 ，Krux 使 用 Apache Spark 运行 许多 机 
器 学 习 和 常规 处 理工 作 负载 。Krux 结合 使 用 临时 Amazon EMR 集群 和 Amazon EC2 竞价 
型 容量 来 节约 成 本 ， 并 将 Amazon S3 与 EMRFS 用 作 Apache Spark 的 数据 层 009 。 

Krux 的 基础 设施 一 直 记录 着 每 一 个 客户 的 数字 足迹 ， 包 括 网 站 、 设 备 、 应 用 程序 和 活 
动 ，Krux 是 嵌入 在 客户 和 消费 者 之 间 的 每 一 个 数字 互动 。 至 关 重 要 的 是 给 消费 者 提供 快速 的 
性 能 、 无 限 的 缩放 能 力 、 实 时 的 个 性 化 体验 ， 以 及 数据 驱动 。 

Krux 收集 、 存 储 ， 使 观众 每 一 片段 数据 不 断 提 供给 其 客户 ， 管 理 超过 10 PB 的 按 需 数 
据 。 全 面 观察 媒体 的 行为 ， 不 只 是 运动 ， 减 少 偏见 ， 并 为 客户 提供 更 高 的 精度 和 更 复杂 的 细 
分 定位 和 分 析 。Krux 不 需要 客户 使 用 一 个 预先 确定 的 受众 分 类 ; 相反 ， 它 使 他 们 能 够 独立 地 
改变 他 们 的 受众 分 类 需要 ， 让 他 们 能 够 迅速 适应 不 断 变化 的 业务 需求 。 

Krux 提供 AWS 管理 数据 处 理 的 要 求 ， 覆 盖 多 种 方式 ， 包 括 准 实时 、 按 需 和 批 处 理 模式 
执行 PB 级 的 数据 需求 分 析 。Krux 组 合 使 用 Amazon EMR 和 Apache Spark 来 运行 机 器 学 习 
和 数据 提取 /转换 /加 载 (ETL) 的 工作 ， 与 亚马逊 简单 存储 服务 Amazon S3) 为 核心 的 分 布 
式 存储 系统 协同 。 使 用 Amazon EC2 Spot 实例 Krux 实现 了 亚马逊 的 EMR 基础 设施 来 实现 降 
低 访 问 计算 成 本 的 功能 ， 使 用 内 部 框架 确定 现货 报价 。 

Krux 使 用 AWS 数据 管道 服务 功能 ， 调 度 AWS 的 Apache Hadoop 和 Apache Spark 的 工 
作 服 务 移动 数据 计算 和 存储 。Krux 使 用 Amazon EMR 管理 按 需 批 处 理 和 数据 处 理科 学 框 
架 ， 同 时 采用 Amazon DynamoDB 存储 来 自 不 同 设 备 和 应 用 的 全 球 会 员 数据 。krux 大 数据 解 
决 方案 如 图 7-2 所 示 。 
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7-2 krux 大 数据 解决 方案 


了 .本 spark 在 商业 网 站 中 的 应 用 


为 了 满足 挖掘 分 析 与 交互 式 实 时 查询 的 计算 需求 ， 腾 讯 大 数据 使 用 了 Spark 平台 来 支持 
挖掘 分 析 类 计算 、 交 互 式 实 时 查询 计算 以 及 允许 误差 范围 的 快速 查询 计算 。 目 前 腾讯 大 数据 
拥有 超过 200 台 的 Spark 集群 ， 并 独立 维护 Spark 和 Shark 分 支 。Spark 集群 已 稳定 运行 2 
年 ， 积 累 了 大 量 的 案例 和 运营 经 验 ， 另 外 多 个 业务 的 大 数据 查询 与 分 析 应 用 ， 已 在 陆续 上 线 
并 稳定 运行 。 在 SQL 查询 性 能 方面 ， 普 遍 比 MapReduce 高 出 2 倍 以 上 ， 利 用 内 存 计 算 和 内 
存 表 的 特性 ， 性 能 至 少 在 10 倍 以 上 。 在 和 迭代 计算 与 挖掘 分 析 方 面 ， 精 准 推荐 将 小 时 和 天 级 别 
的 模型 训练 转变 为 Spark 的 分 钟 级 别 的 训练 ， 同 时 简洁 的 编程 接口 使 得 算法 实现 比 MR 在 时 
间 成 本 和 代码 量 上 高 出 许多 [四 。 


1. 腾讯 


广 点 通 是 最 早 使 用 Spark 的 应 用 之 一 。 腾 讯 大 数据 精准 推荐 借助 Spark 快速 迁 代 的 优 
势 ， 围 绕 “ 数 据 + 算 法 + 系统 ”这 套 技术 方案 ， 实 现 了 在 “数据 实时 采集 、 算 法 实时 训练 、 系 
统 实时 预测 ”的 全 流程 实时 并 行 高 维 算法 ， 最 终 成 功 应 用 于 广 点 通 pCTR 投放 系统 上 ， 支 持 
每 天 上 百 亿 的 请 求 量 。 

基于 日 志 数 据 的 快速 查询 系统 业务 构建 于 Spark 之 上 的 Shark， 利 用 其 快速 查询 以 及 内 存 
表 等 优势 ， 承 担 了 日 志 数据 的 即席 查询 工作 。 在 性 能 方面 ， 普 遍 比 Hive 高 2~10 倍 ， 如 果 使 
用 内 存 表 的 功能 ， 性 能 将 会 比 Hive 快 百倍 。 
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2. Yahoo 


Yahoo 将 Spark 用 在 Audience Expansion 中 。Audience Expansion 是 广告 中 寻找 目标 用 户 
的 一 种 方法 : 首先 广告 者 提供 一 些 观看 了 广告 并 且 购 买 产品 的 样本 客户 ， 据 此 进行 学 习 ， 寻 
找 更 多 可 能 转化 的 用 户 ， 对 他 们 定向 广告 。Yahoo 采用 的 算法 是 logistic regression。 同 时 ， 由 
于 有 些 SQL 负载 需要 更 高 的 服务 质量 ， 又 加 入 了 专门 跑 Shark 的 大 内 存 集群 ， 用 于 取代 商业 
BIOLAP 工具 ， 承 担 报表 /仪表 盘 和 交互 式 /即席 查询 ， 同 时 与 桌面 BI 工具 对 接 。 目 前 在 
Yahoo 部 署 的 Spark 集群 有 112 台 节 点 ，9.2TB 内 存 。 


3. 淘宝 


阿里 搜索 和 广告 业务 ， 最 初 使 用 Mahout 或 者 自己 写 的 MR 来 解决 复杂 的 机 器 学 习 ， 导 
致 效率 低下 而 且 代 码 不 易 维护 。 淘 宝 技术 团队 使 用 了 Spark 来 解决 多 次 迭代 的 机 器 学 习 算 
法 、 高 计算 复杂 度 的 算法 等 。 将 Spark 运用 于 淘宝 的 推荐 相关 算法 上 ， 同 时 还 利用 Graphx 解 
决 了 许多 生产 问题 ， 包 括 以 下 计算 场景 : 基于 度 分 布 的 中 枢 节 点 发 现 、 基 于 最 大 连通 图 的 社 
区 发 现 、 基 于 三 角形 计数 的 关系 衡量 、 基 于 随机 游 走 的 用 户 属性 传播 等 。 

4. 优酷 土豆 

优酷 土豆 在 使 用 Hadoop 集群 的 突出 问题 主要 包括 : 第 一 是 商业 智能 BI 方面 ， 分 析 师 提 
交 任 务 之 后 需要 等 待 很 久 才 得 到 结果 ; 第 二 就 是 大 数据 量 计算 ， 比 如 进行 一 些 模拟 广告 投 
放 ， 计 算 量 非常 大 的 同时 对 效率 要 求 也 比较 高 ， 最 后 就 是 机 器 学 习 和 图 计算 的 迭代 运算 也 是 
需要 耗费 大 量 资源 且 速 度 很 慢 。 

最 终 发 现 这 些 应 用 场景 并 不 适合 在 MapReduce 里 面 去 处 理 。 通 过 对 比 ， 发 现 Spark 性 能 
比 MapReduce 提升 很 多 。 首 先 ， 交 互 查询 响应 快 ， 性 能 比 Hadoop 提高 若干 倍 ;， 模拟 广告 投 
放 计 算 效 率 高 、 延 迟 小 〈 同 Hadoop 比 延 迟 至 少 降低 一 个 数量 级 ) ;机 器 学 习 、 图 计算 等 迭 
代 计 算 ， 大 大 减少 了 网 络 传输 、 数 据 落地 等 ， 极 大 地 提高 了 计算 性 能 。 目 前 Spark 已 经 广泛 
使 用 在 优酷 土豆 的 视频 推荐 〈 图 计算 ) 、 广 告 业务 等 方面 。 


7。 入 Spark 在 Yahoo! 的 应 用 


Yahoo! 在 Spark 技术 的 研究 与 应 用 方面 始终 处 于 领先 地 位 ， 它 将 Spark 应 用 于 公司 的 各 
种 产品 之 中 。 移 动 App、 网 站 、 广 告 服务 、 图 片 服务 等 服务 的 后 端 实时 处 理 框架 均 采 用 了 
Spark+Shark 的 架构 中。Yahoo! 使 用 Spark 进行 数据 分 析 的 整体 架构 如 图 7-3 所 示 。 
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图 7-3 Yahoo! 使 用 Spark 进行 数据 分 析 的 整体 架构 


为 了 让 Hadoop 和 Spark 的 任务 共存 ， 整 个 数据 分 析 栈 构建 在 YARN 之 上 。 主 要 包含 两 
个 主要 模块 : 

(1) 使 用 MapReduce 和 Spark+Shark 混合 架构 。 由 于 MapReduce 适合 进行 ETL 处 理 ， 
还 保留 Hadoop 进行 数据 清洗 和 转换 。 数 据 在 ETL 之 后 加 载 进 HDFS/HCaVHive 数据 仓库 存 
储 ， 之 后 可 以 通过 Spark、Shark 进行 OLAP 数据 分 析 。 

(2) 使 用 Spark Streaming+Spark+Shark 架构 进行 处 理 。 实 时 流 数 据 源源 不 断 经 过 Spark 
Steaming 初步 处 理 和 分 析 之 后 ， 将 数据 追加 进 关 系数 据 库 或 者 NoSQL 数据 库 。 之 后 ， 结 合 
历史 数据 ， 使 用 Spark 进行 实时 数据 分 析 。 


























Ad Server 








7。 5 Spark 在 Amazon EC2 上 运行 


Spark-ec2 可 以 管理 多 个 命名 集群 。 你 可 以 用 它 来 启动 一 个 新 集群 (需要 提供 集群 大 小 和 
集群 名 称 ) ， 关 闭 一 个 已 有 的 集群 ， 或 者 登录 到 一 个 集群 。 每 一 个 集群 的 机 器 将 会 被 划分 到 
不 同 的 EC2 安全 组 〈EC2 security groups) 当中 ， 而 这 些 安全 组 的 名 字 是 由 集群 的 名 称 派生 而 
来 。 例 如 ， 对 于 一 个 命名 为 test 的 集群 ， 其 主 节点 (Master) 将 被 分 到 一 个 叫 testmaster 的 
安全 组 ， 而 其 他 从 节点 〈Slave) 将 被 分 配 到 test-slaves 安全 组 。spark-ec2 脚本 会 自动 根据 你 
提供 的 集群 名 称 来 创建 安全 组 。 你 可 以 在 EC2 的 控制 台 (Amazon EC2 Console) 中 使 用 这 些 
名 字 。 

Spark 的 ec2 目录 下 有 一 个 spark-ec2 脚本 ， 可 以 帮助 你 在 Amazon EC2 上 启动 、 管 理 、 
关闭 Spark 集群 。 该 脚本 能 在 EC2 集群 上 自动 设置 好 Spark 和 HDFS。 本 文 将 会 详细 描述 如 
何 利用 spark-ec2 脚本 来 启动 和 关闭 集群 ， 以 及 如 何在 集群 提交 作业 。 当 然 ， 首 先 必须 在 
Amazon Web Services site 上 注册 一 个 EC2 的 账户 。 
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1. 准备 工作 


首先 ， 你 需要 创建 Amazon EC2 key pair 。 这 需要 登录 Amazon Web Services 账号 ， 在 
AWS 控制 台 (AWS console) 上 单 击 侧 边栏 上 的 Key Pairs 来 创建 ， 并 下 载 。 同 时 ， 你 要 确保 
给 这 私 匙 文件 附 上 600 权限 ( 即 : 可 读 可 写 ) 以 便 使 用 ssh 登录 。 

使 用 spark-ec2 的 时 候 ， 一 定 要 设置 好 这 两 个 环境 变量 ，AWS_ACCESS_ KEY _ID 和 
AWS_SECRET ACCESS _ KEY， 并 使 其 指向 你 的 Amazon EC2 access key ID 和 secret access 
key。 这 些 都 可 以 在 AWS 主页 (AWS homepage) 上 单 击 Account 一 Security Credentials 一 
Access Credentials 获得 。 


2. 启动 集群 


切换 到 你 下 载 的 spark 的 ec2 目录 下 。 

运行 命令 /spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>， 其 
中 <keypair> 是 你 的 Amazon EC2 key pair 的 名 字 〔 你 创建 Amazon EC2 key pair 的 时 候 所 指定 
的 名 字 ) ，<key-file> 是 Amazon EC2 key pair 的 私 钥 (private key) 文件 ，<num-slaves> 是 
slave 节点 个 数 〈 至 少 是 1) ，<cluster-name> 是 你 指定 的 集群 名 称 。 

例如 : 





集群 启动 完成 后 ， 检 查 一 下 集群 调度 器 是 否 启 动 ， 同 时 ， 你 可 以 在 Web UI 上 查看 是 否 
所 有 的 Slave 节点 都 正确 地 展示 出 来 了 ，Web UI 的 链接 在 脚本 执行 完 以 后 会 打印 在 屏幕 上 
(通常 这 个 链接 是 http://<master-hostname>:8080) 。 

你 可 以 运行 ./spark-ec2 -help 来 查看 更 多 的 选项 。 以 下 是 比较 重要 的 一 些 选项 : 


@ -instance-type=<instance-type> : 可 以 指定 EC2 机 器 的 实例 类 型 。 目 前 ， 该 脚本 只 
支持 64-bit 的 实例 类 型 。 

@ -region=<ec2-region>: 可 以 指定 EC2 集群 部 署 于 哪个 地 域 ， 默 认 地 域 是 us-east-1。 

@ -zone=<ec2-zone>: 可 以 指定 EC2 集群 实例 部 署 在 哪些 地 区 (EC2 的 可 用 地 区 ) 。 
指定 这 个 参数 时 注意 ， 有 时 候 因为 在 某 些 地 区 可 能 出 现 容量 不 够 ， 因 此 你 可 能 需要 
在 其 他 地 区 启动 EC2 集群 。 

@。 -ebs-vol-size=<GB>: 可 以 在 每 个 节点 上 附加 一 个 EBS ( 弹性 可 持续 存储 ) 卷 ， 并 指 
定 其 总 容量 ， 这 些 存 储 时 可 持久 化 的 ， 即 使 集群 重启 也 不 会 丢失 。 

®@ -spot-price=<price> : 将 启动 竞价 型 实例 (Spot Instances ) 工作 节点 ， 这 些 节点 可 以 
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按 需 分 配 ， 可 竞价 ， 并 且 可 以 设 定 竞 价 最 高 价格 (以 美元 计 ) 。 

@ -spark-version=<version> : 可 以 在 集群 中 预先 加 载 指定 版 本 的 spark。<version> 可 
以 是 一 个 版 本 号 ( 如: 0.7.3 ) 或 者 是 一 个 git hash 值 。 默 认 会 使 用 最 新 版 本 的 
Spark 。 

@@ -Spark-git-repo=<repository url> : 可 以 指定 一 个 自 定义 的 git 库 ， 从 而 下 载 并 部 署 该 
git 库 中 特定 的 spark 构建 版 本 ， 默 认 使 用 Apache Github mirror 。 如 果 同 时 指定 了 
spark 版 本 ， 那 么 -spark-version 参数 值 不 能 使 用 版 本 号 ， 而 必须 是 一 个 git 提交 对 应 
的 git commit hash (如 : 317el14) 。 


如 果 启 动 过 程 中 由 于 某 些 原因 失败 了 (如 : 没有 给 private key 文件 设 定 正确 的 文件 权 
限 ) ， 你 可 以 用 -resume 选项 来 重启 并 继续 已 有 集群 的 部 署 过 程 。 


3. 在 VPC ( Amazon Virtual Private Cloud ) 上 启动 集群 


运行 ./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> -vpc-id=<vpc-id> -subnet- 
id=<subnet-id> launch <cluster- ， 其 中 ，<keypair> 是 你 的 EC2 key pair (之 前 已 经 创建 
的 ) ，<key-file> 是 key pair 中 的 私 钥 文件 ，<num-slaves> 是 从 节点 个 数 〈 如 果 你 是 第 一 次 
用 ， 可 以 先 设 成 1) ，<vpc-id> 是 VPC 的 名 称 ，<subnet-id> 是 你 的 子 网 名 称 ， 最 后 <cluster- 
name> 是 你 的 集群 名 称 。 

例如 : 





4. 运行 应 用 


转 到 你 下 载 的 spark 的 ec2 目录 下 。 

执行 ./spark-ec2 -k <keypair> -i <key-file> login <clustername>， 远 程 登录 到 你 的 EC2 集 
群 ， 其 中 ，<keypair> 和 <key-file> 的 说 明 见 本 文 上 面 (这 里 只 是 为 了 方便 说 明 ， 你 也 可 以 使 
用 EC2 的 控制 台 ) 。 

如 果 需 要 把 代码 或 数据 部 署 到 EC2 集群 中 ， 你 可 以 在 登录 后 ， 使 用 脚本 ~/spark- 
ec2/copy-dir， 并 指定 一 个 需要 RSYNC 同步 到 所 有 从 节点 (slave) 上 的 目录 。 

如 果 你 的 应 用 需要 访问 一 个 很 大 的 数据 集 ， 最 快 的 方式 就 是 从 Amazon S3 或 者 Amazon 
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EBS 设备 上 加 载 这 些 数 据 ， 然 后 放 到 你 集群 中 的 HDFS 上 。spark-ec2 脚本 已 经 为 你 设置 好 了 
一 个 HDFS， 其 安装 目录 为 /root/ephemeral-hdfs， 并 且 可 以 使 用 该 目录 下 的 bin/hadoop 脚本 访 
问 。 需 要 特别 注意 的 是 ， 这 个 HDFS 上 的 数据 ， 在 集群 停止 或 重启 后 ， 会 被 自动 删 掉 。 

集群 中 也 有 可 以 持久 的 HDFS， 其 安装 路 径 为 /rootpersistent-hdfs， 这 个 HDFS 保存 的 数 
据 即 使 集群 重启 也 不 会 丢失 。 但 一 般 情况 下 ， 这 个 HDFS 在 每 个 节点 上 可 使 用 的 空间 较 少 
( 约 为 3GB) ， 你 可 以 用 spark-ec2 的 选项 -ebs-vol-size 来 指定 每 个 节点 上 持久 化 HDFS 所 使 
用 的 空间 大 小 。 

最 后 ， 如 果 你 的 应 用 出 错 ， 你 可 以 看 看 该 应 用 在 slave 节点 的 日 志 ， 日志 位 于 调度 器 工 
作 目 录 下 ( /root/spark/work ) 。 当 然 ， 你 也 可 以 通过 Web UI ( http://<master- 
hostname>:8080) 查看 一 下 集群 状态 。 


5. 配置 


你 可 以 编辑 每 个 节点 上 的 /root/spark/conf/spark-env.sh 文件 来 设置 Spark 配置 选项 (如 : 
JVM 选项 参数 ) ， 这 个 文件 一 旦 更 改 ， 你 必须 将 其 复制 到 集群 中 所 有 节点 上 。 最 简单 的 方式 
仍然 是 使 用 copy-dir 脚本 。 首 先 ， 编 辑 主 节点 (Master) 上 的 spark-env.sh 文件 ， 然 后 ， 运 行 
~/spark-ec2/copy-dir/root/spark/conf， 将 conf 目录 RSYNC 到 所 有 工作 节点 上 。 


6. 终止 集群 
如 果 EC2 节点 被 关闭 后 ， 是 没有 办 法 恢复 其 数据 的 ! 所 以 ， 请 务必 确保 在 关闭 节点 之 
前 ， 将 所 有 重要 的 数据 复制 出 来 ， 备 份 好 。 


切换 到 spark 下 的 ec2 目录 。 
运行 命令 ./spark-ec2 destroy <cluster-name>。 


7. 暂停 和 重启 集群 


spark-ec2 脚本 同样 支持 暂停 集群 。 这 种 情况 下 ， 集 群 实例 所 使 用 的 虚拟 机 都 是 被 停止 ， 
但 不 会 销毁 ， 所 以 虚拟 机 上 临时 盘 数 据 都 会 丢失 ， 但 root 分 区 以 及 持久 HDFS (persistent- 
hdf) 上 的 数据 不 会 丢失 。 停 止 机 器 实例 不 会 多 花 EC2 周期 (意味 着 不 用 为 机 器 实例 付 
费 ) ， 但 会 持续 EBS 存储 的 计 费 。 

要 停止 一 个 集群 ， 你 需要 切 到 ec2 目录 下 ， 运 行 ./spark-ec2 -region=<ec2-region> stop 
<cluster-name>。 

如 果 过 后 又 要 重启 ， 请 运行 ./spark-ec2 -i <key-file> -region=<ec2-region> start <cluster- 
name>。 

如 果 需 要 最 终 销 毁 这 个 集群 ， 并 且 不 再 占用 EBS 存储 空间 ， 需 要 运行 ./spark-ec2 一 


region=<ec2-region> destroy <cluster-name>。 


8. 限制 


对 “集群 计算 ”的 支持 有 个 限制 ， 即 无 法 指定 一 个 局 部 群 组 。 不 过 ， 你 可 以 在 <cluster- 
name>-slaves 群 组 中 手工 启动 一 些 Slave 节点 ， 然 后 用 spark-ec2 launch -resume 这 个 命令 将 
手工 启动 的 节点 组 成 一 个 集群 。 
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9. 访问 S3 上 的 数据 
Spark 文件 接口 允许 你 通过 相同 的 URI 格式 访问 所 有 在 Amazon S3 上 的 数据 ， 当 然 这 些 


数据 格式 必须 是 Hadoop 所 支持 的 。 


可 以 通过 这 种 URI 格式 指定 S3 路 径 


s3n://<bucket>/path。 在 启动 Spark 集群 的 时 候 ， 可 以 使 用 选项 -copy-aws-credentials 来 指定 访 
问 S3 的 AWS 证 书 。 更 完整 的 访问 S3 所 需 的 Hadoop 库 可 以 在 这 里 查看 Hadoop S3 page。 


另外 ,访问 S3 的 时 候 ， 


径 作 为 输入 。 


不 仅 可 以 将 单个 文件 路 径 作 为 输入 ， 





同时 也 可 以 将 整个 目录 路 


了 .和 淘宝 应 用 Spark on YARN 架构 


对 于 基于 YARN 的 Spark 作业 ， 首 先 由 


ResourceManager ， ResourceManager 在 某 





客户 端 生成 作业 信息 ， 提 交 给 
- NodeManager 汇报 时 把 AppMaster 分 配给 


NodeManager，NodeManager 启动 SparkAppMaster，SparkAppMaster 启动 后 初始 化 作业 ， 然 
后 向 ResourceManager 申请 资源 ， 申 请 到 相应 资源 后 ，SparkAppMaster 通过 RPC 让 
NodeManager 启动 相应 的 SparkExecutor，SparkExecutor 向 SparkAppMaster 汇报 并 完成 相应 
的 任务 。 此 外 ，SparkClient 会 通过 AppMaster 获取 作业 运行 状态 。 目 前 ， 淘 宝 数据 挖掘 与 计 
算 团 队 通过 Spark on YARN 已 实现 MLR、PageRank 和 JMeans 算法 ， 其 中 MLR 已 作为 生产 


作业 运行 bo9。 
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Spark on YARN 架构 如 图 7-4 所 示 。 
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7-4 Spark on YARN 架构 


了 .了 腾讯 云 大 数据 解决 方案 


在 互联 网 + 背景 下 ， 各 级 政府 正在 探索 如 何 将 政务 信息 化 过 程 中 积累 的 海量 数据 发 挥 出 
更 大 价值 ， 为 民众 提供 更 便捷 、 更 智能 的 服务 ， 优 化 提升 行政 效率 和 质量 。 然 而 ， 传 统 技术 
和 社区 方案 难以 满足 多 种 海量 数据 处 理 能 力 和 高 可 靠 、 高 安全 需求 ， 难 以 发 挥 内 部 外 部 数据 
整合 优势 。 

腾讯 大 数据 政务 方案 ， 可 以 快速 地 为 政府 机 构 提供 一 站 式 大 数据 方案 ， 快 速 接 入 内 部 和 
外 部 数据 ， 从 数据 处 理 、 分 析 到 展示 ， 充 分 挖掘 政务 数据 潜力 ， 提 供 交 互 式 展示 工具 ， 助 力 
外 网 门户 服务 或 内 部 政务 应 用 。 还 可 结合 腾讯 海量 信息 数据 ， 提 供 人 群 画像 、 区 域 人 流 分 析 
等 公共 服务 ， 助 力 政府 高 效 行政 ， 快 速决 策 。 腾 讯 云 政务 大 数据 处 理 架构 〈 腾 讯 网 ) 如 图 


7-5 所 示 [。 
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7-5 ”腾讯 云 政务 大 数据 处 理 架构 


-站 式 搭建 政务 大 数据 处 理 平台 、 快 速 接 入 多 个 政务 业务 系统 、 实 时 或 离线 数据 分 析 、 
即刻 洞察 展示 政务 数据 ， 使 得 政府 客户 能 够 将 精力 集中 在 分 析 业 务 数据 本 身 ， 而 非 平台 的 拱 
建 和 运 维 。 完 备 的 合 规 性 和 安全 分 级 管控 全 面 保护 数据 安全 ， 快 速 提交 交互 式 报 表 ， 辅 助 政 
务 决策 。 

离线 批 处 理 计算 中 ， 支 持 MapReduce、Hive、Pig 等 批 处 理 计 算 作业 ， 采 用 Spark 分 布 式 
内 存 计算 框架 ， 以 支持 复杂 的 数据 挖掘 算法 和 图 计算 算法 ，Storm 流 式 任务 作业 引擎 ， 覆 盖 
实时 要 求 极 高 的 流 式 作业 场景 。 支 持 基 于 Spark 上 的 Spark Streaming， 满 足 毫秒 级 的 实时 计 
算 场 景 需求 ， 如 实时 推荐 、 用 户 行为 分 析 等 。 
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7.8 雅虎 开源 TensorFlowOnSpark 


2016 年 雅虎 结合 了 大 数据 和 机 器 学 习 领域 的 两 大 明星 ， 将 内 存 数 据 处 理 框架 Spark 与 深 
度 学 习 框架 Caffe 集成 。 在 Spark 中 编写 的 应 用 程序 将 使 用 Caffe 的 训练 功能 ， 或 者 使 用 经 过 
训练 的 模型 来 进行 Spark 本 地 机 器 学 习 无 法 实现 的 预测 3。 

2017 年 ， 雅 虎 又 发 了 一 波 大 招 ， 最 新 的 Yahoo 开源 项 目 TensorFlowOnSpark (简称 
TFoS， Github 地 址 : https://github.com/yahoo/TensorFlowOnSpark) ， 再 次 融合 了 深度 学 习 和 
大 数据 框架 ， 能 够 更 有 效 地 大 规模 运行 ， 并 且 几 乎 没有 改变 现 有 的 Spark 应 用 程序 。 

TFoS 被 设计 为 在 现 有 的 Spark 和 Hadoop 集群 上 运行 ， 并 使 用 现 有 的 Spark 库 ， 如 
SparkSQL 或 Spark 的 MLlib 机 器 学 习 库 。 雅 虎 声称 现 有 的 TensorFlow 程序 不 需要 大 量 修改 
就 可 以 使 用 TFoS。 通 常 ， 这 种 改变 少 于 10 行 Python 代码 ，TensorFlow 的 并 行 实例 可 以 直接 
相互 通信 ， 而 无 须 通 过 Spark 本 身 。 数 据 可 以 从 TensorFlow 的 本 地 设备 中 获取 ， 以 便 从 
HDFS 或 通过 Spark 读 取 。 

我 们 举例 说 明 如 何 将 tensorflowonspark 应 用 于 Sparkstandalone 簇 。 


1. 克隆 TensorFlowOnOnSpark 代码 





2. 安装 Spark 
按照 网 址 http://spark.apache.org/downloads.html 安装 Apache Spark 2.1.0。 





3. 安装 TensorFlow 


在 Mac OS 安装 TensorFlow 示例 : 


Test TensorFlow: 


4. 启动 standalone Spark 集群 
启动 Master: 


5. MNIST zip 文件 的 转换 


时 第 7 章 spark 大 数据 处 理 案例 分 析 
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6. 运行 分 布 式 MNIST 训练 ( 使 用 feed_dict ) 


7. 运行 分 布 式 MNIST 推理 ( 使 用 feed_dict ) 





第 7 章 Spark 大 数据 处 理 案 例 分 析 





8. 与 Jupyter Notebook 的 互动 学 习 
通过 Jupyter Notebooks 安装 附加 软件 : 


在 Master node 节点 启动 IPython notebook: 





9. 关闭 Spark 集群 


7.9 阿里 云 E-MapReduce 


E-MapReduce 是 构建 于 阿里 云 ECS 弹性 虚拟 机 之 上 ， 利 用 开源 大 数据 生态 系统 ， 包 括 
Hadoop 、Spark、HBase， 为 用 户 提供 集群 、 作 业 、 数 据 等 管理 的 一 站 式 大 数据 处 理 分 析 服务 bo。 
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E-MapReduce 具有 如 下 特性 。 


@ ”控制 台新 增 交 互 式 工作 台 : 直接 在 Web 上 编写 代码 ， 立 即 运行 ， 并 查看 结果 。 

@ 支持 开源 软件 界面 直接 查看 : 通过 控制 台 直 接 查 看 YARN、Ganglia 的 界面 。 

@ ”新 增 独 享 实例 支持 : 为 你 的 集群 提供 稳定 的 带宽 和 CPU， 只 在 华东 和 华北 的 部 分 可 
用 区 。 

@ ”执行 计划 支持 重 跑 : 可 以 指定 执行 计划 从 任意 节点 开始 重 跑 ， 方 便 作 业 失 败 后 的 手 
工 恢复 。 

@ ”增加 MetaService 支持 : 在 访问 外 部 云 服务 的 时 候 ， 不 再 需要 显 式 地 输入 AK， 操 作 
更 加 方便 。 

@ ”增加 集群 脚本 : 随时 随地 可 以 通过 集群 脚本 来 对 集群 的 所 有 节点 进行 变更 运行 环 
境 、 安 装 新 的 组 件 等 。 

@ 增加 Tez 支持 : 2.1.0 及 以 上 版 本 Hive 的 执行 时 ， 可 以 选择 Tez 作为 执行 引擎 ， 极 
大 地 提高 MR 作业 的 效率 。 

@ 增加 Sqoop、SparkSQL、Shell 作业 : 使 用 Sqoop 来 同步 数据 、SparkSQL 来 执行 高 
效 的 SQL 作业 、Shell 来 执行 任意 脚本 命令 。 


1. E-MapReduce 功能 
(1) 自动 化 按 需 创建 集群 


@ ”自由 选择 机 器 配置 (CPU、 内 存 ) 、 磁 盘 类 型 和 容量 。 
@ 自由 选择 服务 器 规模 ， 包 括 Master 和 Core 的 数量 。 

@ 根据 业务 量 的 上 升 可 对 集群 动态 扩容 。 

@ ”自由 选择 开源 大 数据 生态 软件 组 合 和 版 本 ， 目 前 包括 Hadoop 和 Spark。 
@ ”自由 选择 启动 集群 的 方式 ， 分 为 临时 集群 和 长 时 间 运 行 集群 。 

支持 丰富 的 作业 类 型 


MapReduce: 离线 处 理 作业 。 

Hive: 关系 型 分 析 查 询 作 业 。 

Pig: 数据 清洗 、ETL 等 脚本 作业 。 

Spark MLlib: 基于 Spark 的 机 器 学 习作 业 。 

Spark GraphX: 基于 Spark 的 图 处 理 作业 。 

Spark Streaming: 基于 Spark 的 在 线 / 流 式 作业 。 

Spark SQL & DataFrames: 基于 Spark 的 数据 科学 交互 式 作业 。 


灵活 的 作业 执行 计划 


@ 将 作业 (包括 Hadoop/Spark/Hive/Pig ) 任意 组 合成 执行 计划 。 
@ ”执行 计划 的 执行 策略 有 两 种 ， 分 为 立即 执行 和 定时 周期 执行 。 


eeeeee TD 
心 


~ 
ULD 
bd 
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2. E-MapReduce 典型 应 用 场景 
以 下 图 例 为 E-MapReduce 典型 应 用 场景 。 
(1) 离线 数据 处 理 〈 如 图 7-6 所 示 ) 
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7-6”E-MapReduce 离线 数据 处 理 


(2) Ad hoc 数据 分 析 〈 如 图 7-7 所 示 ) 


OSS | Hive 
对 象 存储 :| Hadoop Mapreduce 


Spark 


| 





MySQL 
MongoDB 
Redis 





E-Mapreduce 


7-7 E-MapReduce Ad hoc 数据 分 析 
(3) 海量 数据 在 线 服 务 〈 如 图 7-8 所 示 ) 


E-Mapreduce | 
离线 处 理 | 人 | 
E-Mapreduce | 
流 式 处 理 | 


ECS ! 
| 在 线 应 用 | 

















E-Mapreduce 


7-8”E-MapReduce 海量 数据 在 线 服务 
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7.1 0 SequoiaDB+Spark 打造 一 体 化 


势 ， 为 用 户 带 来 传统 Hadoop 体系 无 法 提供 的 特性 ， 提 升 企业 数据 的 价值 


并 且 敢 于 开源 的 NewSQL 数据 库 产 品 。 


(4) 流 式 数 据 处 理 〈 如 图 7-9 所 示 ) 
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7-9”E-MapReduce 流 式 数据 处 理 


大 数据 平台 


SequoiaDB 巨 杉 数据 库 作为 在 线 数据 存储 系统 ， 是 国内 第 一 个 真正 意义 上 整合 分 布 式 数 
据 库 与 Spark 的 分 布 式 计算 存储 框架 。 通 过 分 布 式 的 SQL、 索 引 、 查 询 和 计算 模块 整合 ， 这 
-框架 能 够 无 缝 适 配 当前 主流 大 数据 平台 框架 的 发 展 趋势 ， 也 能 够 突出 SequoiaDB 的 核心 优 


1. SequoiaDB 是 Spark 底层 数据 源 的 首选 


SequoiaDB 是 一 款 文档 型 的 分 布 式 NewSQL 数据 库 ， 其 也 是 国内 第 一 款 完全 自主 研发 、 


SequoiaDB JSON 对 象 式 的 存储 结构 ， 带 来 灵活 的 数 


据 结构 ， 分 布 式 的 架构 ， 使 得 存储 容量 可 以 动态 调整 ， 高 可 用 和 读 写 分 离 ， 则 可 以 使 得 数据 
读 写 和 离线 数据 分 析 分 离 ， 提 升 使 用 的 效率 ; 原生 的 Spark-SequoiaDB Connector 连接 器 让 
Spark 与 SequoiaDB 完美 对 接 。 
SequoiaDB 是 一 款 NewSQL 数据 库 ， 其 可 以 在 不 同 的 物理 节点 之 间 对 数据 进行 复制 ， 并 
且 人 允许 用 户 指 定 使 用 哪 一 个 数据 备份 。SequoiaDB 允许 在 同一 集群 同时 运行 数据 分 析 和 数据 
操作 负载 ， 并 且 保证 最 小 的 IO 和 CPU 使 用 率 。 
Spark-SequoiaDB Connector 是 Spark 的 数据 源 ， 可 以 让 用 户 使 用 SparkSQL 对 SequoiaDB 
的 数据 库 集合 中 的 数据 进行 读 写 。 连 接 器 用 于 SequoiaDB 与 Spark 的 集成 ， 将 无 模式 的 存储 


模型 、 动 态 索 引 以 及 Spark 集群 的 优势 有 机 地 结合 起 来 。 


2. SequoiaDB+Spark 打造 一 体 化 平台 


“Apache Spark 和 SequoiaDB 的 联合 解决 方案 ， 使 得 用 户 可 以 搭建 一 个 在 同 


群 中 支持 多 种 类 型 负载 (如 ，SQL 语句 和 流 处 理 ) 的 统一 平台 。” 
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SequoiaDB+Spark 的 一 体 化 大 数据 平台 ， 通 过 SequoiaDB 与 Spark 架构 的 结合 ， 实 现 了 
从 数据 的 底层 存储 到 数据 的 处 理 分 析 ， 最 终 实 现 数据 展现 的 一 体 化 平台 。 平 台 打通 了 数据 从 
存储 到 最 终 展现 的 全 过 程 ， 不 仅 大 大 降低 了 用 户 部 署 、 使 用 的 成 本 ， 简 化 了 整个 系统 的 操作 
和 维护 ， 同 时 更 通过 平台 的 一 体 化 整合 ， 大 大 减少 了 因为 不 同 的 产品 、 架 构 之 间 对 接 、 通 信 
等 操作 造成 的 系统 效率 和 数据 安全 性 降低 。 此 外 ，Spark 的 SparkSQL 解析 引擎 ， 结 合 非 结构 
化 存储 的 SequoiaDB， 帮 助 现 有 的 比较 熟悉 SQL 语句 的 用 户 ， 能 在 基本 不 修改 业务 操作 的 情 
况 下 ， 顺 利 对 接 上 SequoiaDB+Spark 平台 。 


3. SequoiaDB+Spark 实战 案例 : 产品 精准 推荐 系统 


这 一 系统 使 用 分 布 式 的 SequoiaDB， 将 所 有 用 户 的 交易 信息 、 操 作 信息 进行 了 存储 。 这 
一 存储 的 量 级 就 已 经 达到 了 近 PB 级 别 。 

之 后 ， 基 于 这 些 历史 交易 信息 ， 平 台 就 可 以 通过 对 这 些 数据 的 分 析 ， 对 每 个 用 户 的 交易 
行为 进行 预测 ， 对 用 户 进行 分 类 和 建 模 ， 最 终 根 据 分 析 的 结果 向 每 个 用 户 推荐 最 适合 的 理财 
产品 。 

当 用 户 模型 系统 通过 分 析 所 有 的 历史 数据 和 日 志 ， 计 算出 需要 推荐 的 产品 时 ， 这 些 用 户 
特征 也 会 作为 这 个 用 户 的 一 个 标签 写 入 这 个 用 户 的 信息 中 。 这 些 新 加 入 的 用 户 标签 ， 可 以 帮 
助 前 台 的 员工 和 产品 推荐 系统 快速 地 分 辨 出 每 个 顾客 的 兴趣 和 消费 倾向 。 系 统 主 架 构图 如 图 
7-10 所 示 。 
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了 .1 1 本 章 小 结 


本 章 主要 介绍 Spark 应 用 的 典型 案例 ， 突 出 介绍 Spark 应 用 核心 框架 ， 提 供 了 系统 底层 
细节 透明 、 编 程 接口 简洁 的 分 布 式 计算 平台 框架 设计 。 根 据 Spark 具有 计算 速度 快 、 实 时 性 
高 、 容 错 性 好 等 突出 特点 ， 基 于 Spark 的 应 用 已 经 逐步 落地 ， 尤 其 是 在 互联 网 领域 ， 如 淘 
宝 、 腾 讯 、 网 易 等 公司 的 发 展 已 经 成 熟 。 同 时 电信 、 银 行 等 传统 行业 也 开始 逐步 试 水 Spark 
并 取得 了 较 好 的 效果 。 本 章 也 对 Spark 的 基本 情况 、 架 构 、 运 行 逻辑 等 进行 了 介绍 。 
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第 8 章 
< 大 数据 友 展 展望 > 


大 数据 时 代 的 出 现 ， 简 单 地 说 是 海量 数据 同 完美 计算 能 力 结合 的 结果 。 确 切 地 说 ， 是 移 
动 互联 网 、 物 联网 产生 了 海量 的 数据 ， 大 数据 计算 技术 完美 地 解决 了 海量 数据 的 收集 、 存 
储 、 计 算 、 分 析 的 问题 。 大 数据 时 代 开 启 人 类 社会 利用 数据 价值 的 另 一 个 时 代 。 

目前 大 数据 在 互联 网 公司 主要 应 用 在 广告 、 报 表 、 推 荐 系统 等 业务 上 。 在 广告 业务 方面 
需要 大 数据 做 应 用 分 析 、 效 果 分 析 、 定 向 优化 等 ， 在 推荐 系统 方面 则 需要 大 数据 优化 相关 排 
名 、 个 性 化 推荐 以 及 热点 点 击 分 析 等 。 这 些 应 用 场景 的 普遍 特点 是 计算 量 大 、 效 率 要 求 高 。 

我 们 所 指 的 大 数据 不 同 于 过 去 传统 的 数据 ， 其 产生 方式 、 存 储 载体 、 访 问 方式 、 表 现形 
式 、 来 源 特点 等 都 同 传统 数据 不 同 。 大 数据 更 接近 于 某 个 群体 行为 数据 ， 它 是 全 面 的 数据 、 
准确 的 数据 、 有 价值 的 数据 。 








大 数据 未 来 发 展 趋势 


随 着 大 数据 应 用 范围 的 不 断 扩大 ， 越 来 越 多 的 公司 开始 部 署 大 数据 战略 。 同 时 ， 大 数据 
技术 也 使 得 商业 发 展 的 速度 更 快 、 效 率 更 高 。 通 过 大 数据 技术 ， 企 业 可 以 更 轻松 地 获取 信 
息 ， 以 便 更 准确 地 决策 。 


1. 数据 量 增长 

数据 量 的 不 断 增 加 意味 着 通过 数据 的 快速 分 析 获 取 宝 贵 的 市 场 洞察 已 经 成 为 大 数据 业务 
运营 的 关键 环节 。 机 构 和 企业 组 织 必 须 将 其 内 部 未 被 利用 的 每 一 字 节 的 大 数据 ， 也 就 是 我 们 
所 谓 的 “黑暗 数据 (dark data) ”加 以 合理 化 地 整合 并 转化 成 可 以 利用 的 数据 资源 。 


2. 大 数据 助 推 客户 体验 

利用 大 数据 更 深入 地 了 解 客户 需求 ， 使 企业 可 以 通过 搭配 销售 或 者 促销 活动 提高 自己 的 
- 线 财政 收入 水 平 ， 同 时 还 可 以 免除 因 客 户 流失 所 导致 的 业绩 缩水 风险 。 消 费 者 使 用 灵活 性 
的 自助 服务 方式 可 以 让 大 数据 分 析 为 企业 快速 掌握 市 场 发 展 的 主导 趋势 提供 依据 ， 还 可 以 为 
客户 需求 增长 机 遇 带 来 更 多 有 竞争 力 的 市 场 洞察 。 
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3. 大 数据 预测 分 析 
精准 地 预测 未 来 可 能 发 生 的 行为 和 事件 可 以 提高 企业 的 利润 。 为 降低 企业 经 营 风 险 ， 暴 
露 所 面临 的 欺诈 行为 、 快 速 鉴别 和 预 判 技术 将 会 迎 来 质 的 飞跃 ， 同 时 企业 运营 的 卓越 性 将 进 


4. 迁移 到 云端 


将 数据 分 析 业 务 迁移 到 云端 可 以 加 速 企业 采用 最 新 的 技术 能 力 ， 并 实现 数据 资源 到 行动 
计划 的 快速 转变 。 数 据 分 析 业 务 转 移 到 云端 之 后 ， 企 业 的 运营 和 技术 维护 成 本 也 将 削减 不 少 。 


5. 分 析 数 据 价值 


使 用 信息 学 助 推 复杂 数据 收集 、 分 析 与 可 视 化 技术 的 整合 ， 可 以 从 数据 资源 中 推导 出 企 
业 所 需 的 收益 来 源 。 

6. 图 形 数据 可 视 化 

数据 可 视 化 技术 让 隐藏 在 大 数据 资源 背后 的 真相 呈现 在 众人 面前 。 无 论 数据 怎样 形成 ， 


无 论 数据 资源 在 哪里 ， 图 形 数据 可 视 化 可 以 让 企业 组 织 在 业务 繁忙 的 同时 对 数据 进行 检索 与 
处 理 。 


7. 物 联网 、 云 技术 、 大 数据 和 网 络 安全 深度 融合 

数据 质量 控制 、 数 据 准 备 、 数 据 分 析 以 及 数据 整合 等 方面 的 融合 程度 将 达到 新 的 高 度 ， 
对 智能 设备 的 依赖 程度 增加 、 互 通 性 以 及 机 器 学 习 将 会 成 为 保护 资产 兔 遭 网 络 安全 危害 的 重 
要 手段 。 


8. 偏好 分 析 


以 客户 偏好 的 渠道 与 其 保持 有 效 接触 ， 可 以 让 企业 在 传统 渠道 与 数字 渠道 之 间 找到 最 佳 
平衡 点 。 通 过 不 同 渠 道 不 断 寻 求 创新 手段 、 提 高 客户 体验 度 可 以 带 来 企业 的 竞争 优势 。 


号 . 2 大 数据 给 人 类 带 来 的 认 知 冲击 


人 类 社会 的 发 展 一 直 都 在 依赖 着 数据 ， 不 论 是 各 国文 明 的 演化 、 农 业 的 规划 、 工 业 的 发 
展 、 军 事 战役 及 政治 事件 等 。 但 是 出 现 大 数据 之 后 ， 我 们 将 会 面 对 着 海量 的 数据 : 多 种 维度 
的 数据 、 行 为 的 数据 、 情 绪 的 数据 、 实 时 的 数据 ， 这 些 数据 是 过 去 没有 了 解 到 的 。 通 过 大 数 
据 计 算 和 分 析 技术 ， 人 们 将 会 得 到 不 同 的 事物 真相 、 不 同 的 事物 发 展 规律 。 依 靠 大 数据 提供 
的 数据 分 析 报告 ， 人 们 将 会 发 现 决定 一 件 事 、 判 断 一 件 事 、 了 解 一 件 事 不 再 变 得 困难 6 。 

大 数据 技术 就 像 其 他 的 技术 革命 一 样 ， 是 从 效率 提升 入 手 。 大 数据 技术 云 平台 的 出 现 提 
升 了 数据 处 理 效率 。 其 效率 的 提升 是 几何 级 数 增长 的 ， 过 去 需要 几 天 或 更 多 时 间 处 理 的 数 
据 ， 现 在 可 能 在 几 分 钟 之 内 就 会 完成 。 大 数据 的 高 效 计算 能 力 ， 为 人 类 节省 了 更 多 的 时 间 。 
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相对 于 过 去 的 样本 代替 全 体 的 统计 方法 ， 大 数据 将 使 用 全 局 的 数据 ， 其 统计 出 来 的 结果 
更 为 精确 ， 更 接近 事物 真相 ， 帮 助 科学 家 了 解 事物 背后 的 真相 。 大 数据 带 来 的 统计 结果 将 纠 
正 过 去 人 们 对 事物 错误 的 认识 ， 影 响 过 去 人 类 行为 、 社 会 行为 的 结论 的 准确 性 ， 给 人 们 带 来 
全 新 的 认 知 。 有 利于 政府 、 企 业 、 科 学 家 了 解 过 去 人 类 社会 的 各 种 历史 行为 的 真正 原因 ， 大 
数据 统计 将 纠正 样本 统计 误差 ， 为 统计 结论 不 断 纠 错 。 大 数据 可 以 让 人 类 更 加 接近 了 解 大 自 
然 ， 增 加 对 自然 灾害 产生 原因 的 了 解 。 

大 数据 收集 了 全 局 的 数据 、 准 确 的 数据 ， 通 过 大 数据 计算 统计 出 了 解 事物 发 展 过 程 中 的 
真相 ， 通 过 数据 分 析 了 解 人 类 社会 的 发 展 规律 、 自 然 界 发 展 规律 。 

拥有 了 大 数据 技术 之 后 ， 大 量 的 传感器 如 手机 APP、 摄 像 头 、 分 享 的 图 片 和 视频 等 让 我 
们 更 加 客观 地 了 解 人 类 的 行为 。 


号 .也 未 来 大 数据 研究 突破 的 技术 问题 


随 着 大 数据 的 应 用 范围 不 断 扩大 ， 越 来 越 多 的 公司 开始 部 署 大 数据 战略 。 同 时 ， 大 数据 
技术 也 使 得 商业 发 展 的 速度 更 快 、 效 率 更 高 。 通 过 大 数据 技术 ， 企 业 可 以 更 轻松 地 获取 信 
息 ， 以 便 更 准确 地 决策 。 

1. 大 数据 推动 新 工具 的 出 现 

虽然 SQL 依然 会 是 数据 分 析 的 标准 方法 ， 但 是 随 着 数据 量 的 不 断 增 长 ， 数 据 分 析 方 法 也 
将 进一步 发 展 。 大 数据 时 代 下 的 快速 处 理 数据 分 析 工 作 的 框架 ,会 随 着 应 用 和 硬件 技术 的 发 
展 获 得 突破 ， 目 前 多 家 世界 顶级 的 数据 企业 例如 Google、Facebook 等 现 已 纷纷 转向 Spark 框 
架 。 应 用 与 普及 推动 新 兴 分 析 工 具 趋 向 操作 简单 ， 对 用 户 没 有 任何 编码 知识 要 求 。 如 
Microsoft 和 Salesforce 都 已 经 推出 了 新 型 分 析 工 具 : Microsoft R Server 和 Lightning CRM 平 
台 ， 非 编码 人 员 也 可 以 创建 应 用 程序 来 查看 数据 。 

2. 实时 数据 分 析 提升 生产 效率 

企业 需要 实时 数据 分 析 工 具 来 帮助 他 们 利用 数据 进行 实时 决策 。 实 时 计算 一 般 都 是 针对 
海量 数据 进行 的 ， 一 般 要 求 为 秒 级 。 目 前 有 几 款 数据 分 析 工 具 可 以 提供 实时 访问 数据 ， 如 
Google Analytics 和 Clicky。 

3. 数据 隐私 保护 

从 目前 的 信息 泄露 案件 分 析 ， 近 60% 的 企业 都 将 面临 隐私 泄露 问题 。 事 实 上 ， 互 联网 企 
业 制 定 和 实施 新 的 隐私 规则 时 ， 早 已 经 预见 到 了 这 一 点 。 大 数据 时 代 ， 解 决 用 户 隐 私 泄露 问 
题 ， 就 是 解决 大 数据 发 展 与 使 用 的 问题 。 

4. 人 工 智 能 应 用 已 经 达到 | 临界 点 


随 着 人 工 智能 技术 日 益 成 熟 ， 示 来 公司 企业 将 很 大 程度 上 依赖 于 这 项 技术 。 无 人 驾驶 汽 
车 试 驾 成 功 、AlphaGo 围棋 获胜 。 虚 拟 助手 、 机 器 人 、 智 能 顾问 和 自动 驾驶 汽车 等 多 种 技术 
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都 将 得 到 广泛 地 应 用 。 


5. 大 数据 加 速 认 知 技术 发 展 


随 着 人 工 智能 的 发 展 ， 认 知 技术 的 重要 性 越 来 越 受 到 人 们 的 认可 。 包 括 计算 机 视觉 、 机 
嚣 学习、 自然 语言 处 理 、 机 器 人 技术 和 语言 识别 技术 等 。 应 用 的 发 展 促使 人 们 认识 到 大 数据 
和 分 析 学 之 间 的 紧密 联系 ,发现 认 知 计算 和 分 析 学 一 样 ， 是 人 类 社会 发 展 不 可 或 缺 的 技术 。 


6. 大 数据 量 质 平衡 


未 来 大 数据 应 用 应 考虑 改变 信息 的 生产 、 传 播 、 加 工 和 组 织 方 式 ， 进 而 给 各 个 行业 的 创 
新 发 展 带 来 新 的 驱动 力 ， 推 动 各 个 领域 的 彻底 变革 和 再 造 。 大 数据 将 被 分 割 成 数据 块 ， 这 将 
打破 行业 领域 对 信息 流动 的 限制 ， 通 过 对 不 同类 型 、 不 同 领域 数据 的 跨 界 集聚 。 


8.4 本 章 小 结 


国内 的 互联 网 企业 在 大 数据 应 用 和 研发 方面 处 于 较 好 的 水 平 ， 例 如 淘宝 、 百 度 、 腾 讯 、 
新 浪 等 。 但 是 在 大 数据 产品 和 技术 服务 领域 却 落后 于 国际 厂商 。 国 际 主流 大 数据 产 商 包括 
Cloudera、HortonWorks、MapR、IBM、Oracle、EMC、Intel、SAP 和 Teradata。 

由 于 大 数据 及 大 数据 技术 是 一 个 工具 ， 无 法 像 互 联网 企业 那样 形成 一 个 大 数据 生态 圈 ， 
形成 闭环 。 但 是 从 数据 的 收集 、 存 储 、 处 理 、 分 析 、 销 毁 等 方面 分 析 ， 可 以 形成 大 数据 产业 
链 。 图 8-1 给 出 了 未 来 的 大 数据 发 展 图 谱 。 








大 数据 计算 服务 大 数据 开发 套件 分 析 型 数据 库 流 计算 
大 数据 基础 服务 
数据 可 视 化 海 昌 数 据 实时 分 析 画像 分 析 
数据 分 析 与 展 霹 
推荐 引擎 公众 趋势 分 析 企业 图 谱 数据 集成 
数据 应 用 
机 器 学 习 智能 语音 印刷 文字 人 脸 识别 
人 工 智能 


8-1 未 来 的 大 数据 发 展 图 谱 


1. 大 数据 基础 服务 


大 数据 基础 服务 是 云 大 数据 服务 的 基石 ， 解 决 数据 的 存 、 通 问题 ; 通过 数 加 平台 ， 用 相 
同 的 数据 标准 将 数据 进行 正确 的 关联 ， 进 而 可 以 进行 上 层 数据 分 析 及 应 用 。 大 数据 基础 服务 
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包含 以 下 技术 概念 : 

(1) 大 数据 计算 服务 (MaxCompute) 是 一 种 快速 、 完 全 托管 的 TB/PB 级 数据 仓库 解决 
方案 。MaxCompute 向 用 户 提供 了 完善 的 数据 导入 方案 以 及 多 种 经 典 的 分 布 式 计算 模型 ， 能 
够 更 快速 地 解决 用 户 海量 数据 计算 问题 ， 有 效 降低 企业 成 本 ， 并 保障 数据 安全 。 

(2) 大 数据 开发 套件 (Data IDE) ， 提 供 可 视 化 开发 界面 、 离 线 任 务 调度 运 维 、 快 速 数 
据 集 成 、 多 人 协同 工作 等 功能 ， 为 你 提供 一 个 高 效 、 安 全 的 离线 数据 开发 环境 ， 并 且 拥 有 强 
大 的 Open API， 为 数据 应 用 开发 者 提供 良好 的 再 创作 生态 。 

(3) 分 析 型 数据 库 〈AnalyticDB) ， 是 阿里 巴巴 自主 研发 的 海量 数据 实时 高 并 发 在 线 分 
析 (Realtime OLAP) 云 计 算 服 务 ， 使 得 你 可 以 在 毫秒 级 针对 千 亿 级 数据 进行 即时 的 多 维 分 析 
透视 和 业务 探索 。 分 析 型 数据 库 对 海量 数据 的 自由 计算 和 极速 响应 能 力 ， 能 让 用 户 在 瞬息 之 
间 进 行 灵 活 的 数据 探索 ， 人 快速 发 现 数据 价值 ， 并 可 直接 嵌入 业务 系统 ， 为 终端 客户 提供 分 析 
服务 。 

(4) 云 流 计算 (Cloud StreamCompute ) 是 运行 在 阿里 云 平台 上 的 流 式 大 数据 分 析 平 
台 ， 提 供给 用 户 在 云 上 进行 流 式 数据 实时 化 分 析 工 具 。 


2. 数据 分 析 及 展示 


通过 数据 分 析 及 展现 产品 ， 用 户 可 以 实现 用 数据 来 主动 发 现 业 务 问题 、 实 现 现 有 信息 的 
预测 分 析 和 可 视 化， 以 帮助 用 户 更 好 地 讲 故事 ， 帮 助 企业 快 速 获 得 切实 有 效 的 业务 见解 。 


(1) 数据 可 视 化 专 精 于 业务 数据 与 地 理 信息 融合 的 大 数据 可 视 化 ， 通 过 图 形 界面 轻松 拱 
建 专业 的 可 视 化 应 用 ， 满 足 你 日 常 业务 监控 、 调 度 、 会 展演 示 等 多 场景 使 用 需求 。 

(2) 海量 数据 实时 在 线 分 析 、 拖 忠 式 操作 、 直 富 的 可 视 化 效果 ， 帮 助 你 轻松 自如 地 完成 
数据 分 析 、 业 务 数据 探查 。 它 不 只 是 业务 人 员 “ 看 ”数据 的 工具 ， 更 是 数据 化 运营 的 助 推 
器 ，Data Intelligence more than Business Intelligence， 实 现 人 人 都 是 数据 分 析 师 。 

(3) 画像 分 析 将 分 布 在 多 个 存储 资源 的 数据 整合 起 来 ， 在 标签 模型 上 构建 大 数据 画像 类 的 
交互 式 分 析 应 用 ， 让 你 的 业务 人 员 可 以 自由 灵活 地 分 析 这 些 对 象 各 种 属性 与 行为 之 间 的 关联 性 ， 
可 以 广泛 应 用 于 用 户 行为 、 设 备 管理 、 企 业 档案 、 地 理 分 布 等 多 种 画像 分 析 的 多 个 场景 当中 。 


3. 数据 应 用 


把 用 户 、 数 据 和 算法 巧妙 地 连接 起 来 的 是 数据 应 用 。 数 加 平台 提供 的 数据 应 用 产品 完全 
具备 智能 模块 和 学 习 功 能 ， 将 助力 企业 颠覆 传统 商业 。 

(1) 推荐 引擎 (Recommendation Engine， 简 称 RecEng) 是 在 云 计算 环境 下 建立 的 一 套 
推荐 服务 框架 ， 用 于 实时 预测 用 户 对 物品 的 偏好 ， 支 持 你 定制 推荐 算法 ， 支 持 A/B Test 效 
果 对 比 。 

(2) 公众 趋势 分 析 是 基于 全 网 公开 发 布 数据 、 传 播 路 径 和 受众 群体 画像 ， 利 用 语义 分 
析 、 情 感 算法 和 机 器 学 习 ， 分 析 公 众 对 品牌 形象 、 热 点 事件 和 公共 政策 的 认 知 趋势 。 

(3) 企业 图 谱 (Enterprise Profile， 简 称 E-profile〉 提 供 企 业 多 维度 信息 查询 ， 深 度 挖掘 
企业 与 企业 、 企 业 与 个 人 关系 链 路 ， 方 便 企 业 构建 基于 企业 画像 及 企业 关系 网 络 的 风险 控 
制 、 市 场 监测 等 企业 级 服务 。 
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(4) 数据 集成 (Data Integration) 是 阿里 集团 对 外 提供 的 稳定 高 效 、 弹 性 伸缩 的 数据 同 
步 平台 ， 为 阿里 云 各 个 云 产品 〈 包 括 MaxCompute、Analytic DB、OSS、OTS、RDS 等 ) 提 
供 离线 (批量 ) 数据 进出 通道 。 


4. 人 工 智能 

大 数据 真正 的 价值 在 算法 ， 算 法 决定 行动 ， 算 法 也 是 “机 器 学 习 ” 的 核心 ， 机 器 学 习 又 
是 “人 工 智 能 ”的 核心 。 数 加 平台 通过 机 器 学 习 促 成 了 语音 、 图 像 、 视 频 识别 等 技术 领域 的 
快速 发 展 。 

(1) 云 机 器 学 习 是 基于 云 分 布 式 计算 引擎 的 机 器 学 习 算 法 应 用 平台 。 用 户 通过 拖拉 搜 的 
方式 ， 可 视 化 地 操作 组 件 来 进行 试验 ， 使 得 没有 机 器 学 习 背 景 的 工程 师 也 可 以 轻易 上 手 ， 玩 
转 数据 挖掘 。 平 台 提供 了 丰富 的 组 件 ， 包 括 数据 预 处 理 、 特 征 工程 、 算 法 组 件 、 预 测 与 评 
估 。 所 有 算法 都 经 历 了 阿里 云 内 部 业务 的 大 数据 的 锤炼 。 阿 里 云 机 器 学 习 帮 助 你 的 业务 从 BI 
跨 入 AI， 让 越 来 越 多 的 人 享受 人 工 智能 带 来 的 福利 。 

(2) 智能 语音 交互 Intelligent Speech Interaction) 是 基于 语音 识别 、 语 音 合成 、 自 然 语 
言 理解 等 技术 ， 为 企业 在 多 种 实际 应 用 场景 下 ， 赋 予 产 品 “ 能 听 、 会 说 、 懂 你 ” 式 的 智能 人 
机 交互 体验 。 适 用 于 多 个 应 用 场景 中 ， 包 括 智能 问答 、 智 能 质 检 、 法 庭 庭 审 实时 记录 、 实 时 
演讲 字幕 、 访 谈 录 音 转 写 等 场景 ， 在 金融 、 保 险 、 司 法 、 电 商 等 多 个 领域 均 有 应 用 案例 。 

(3) 印刷 文字 识别 (OCR) ， 通 俗 来 讲 就 是 将 图 片 中 的 文字 识别 出 来 。 提 供 的 服务 包括 身 
份 证 文字 识别 、 门 店 招牌 识别 、 行 驶 证 识别 、 驾 驶 证 识别 、 名 片 识别 等 证 件 类 文字 识别 场景 。 

(4) 人 脸 识别 是 一 款 用 于 提供 图 像 和 视频 帧 中 人 脸 分 析 的 在 线 服 务 。 我 们 提供 人 脸 相关 
技术 的 在 线 API 服务 给 开发 者 和 企业 使 用 ， 包 括 人 脸 检 测 、 人 脸 特 征 提 取 、 人 脸 年 龄 估计 和 
性 别 识别 、 人 脸 关 键 点 定位 等 独立 服务 模块 。 可 应 用 于 人 脸 美 化 、 人 脸 识 别 和 认证 、 大 规模 
人 脸 检 索 、 照 片 管理 等 各 种 场景 。 

以 上 应 用 都 是 未 来 大 数据 的 典型 应 用 ， 当 然 不 局 限于 这 些 应 用 。 由 于 目前 大 数据 产业 的 
商业 模式 盘 利 模式 还 在 探索 之 中 ， 大 数据 带 来 的 直接 收益 还 没有 明确 ， 目 前 主要 的 商业 形 
式 还 是 多 数 企业 自身 的 大 数据 应 用 例如， 大 数据 计算 平台 、 大 数据 采集 和 分 析 、 数 据 分 析 
报告 ) ， 行 业 应 用 处 于 一 个 探索 的 阶段 。 在 大 数据 较为 集中 的 电信 行业 ， 并 没有 成 立 数据 事 
业 部 ， 数 据 被 当 作 资 产 良 好 地 保存 起 来 。 在 国外 ， 大 数据 投资 在 2005 年 就 开始 了 ， 很 多 高 科 
技 企 业已 经 在 大 数 产业 链 上 投入 巨 资 进行 技术 开发 和 行业 应 用 。 

大 数据 的 发 展 十 分 快速 ， 与 目前 已 经 飞速 发 展 并 且 极 具 影 响 力 的 互联 网 一 样 ， 对 于 社会 
的 各 个 行业 来 说 都 是 一 个 新 的 技术 革命 ， 其 相关 技术 的 普及 ， 对 于 科学 技术 上 的 突破 都 是 非 
常 显而易见 的 。 

在 不 久 的 未 来 ， 大 数据 将 会 成 为 一 个 专门 的 学 科 ， 会 被 更 多 的 人 所 熟知 和 了 解 ， 并 且 ， 
大 数据 相关 职业 也 会 逐渐 普及 ， 由 于 大 数据 的 普遍 使 用 ， 也 会 催生 出 更 多 的 行业 岗位 ， 数 据 
共享 会 在 企业 层面 进行 扩展 ， 从 而 成 为 产业 的 核心 。 

云 计算 的 存在 为 大 数据 的 处 理 提供 了 强 有 效 的 支撑 作用 ， 大 数据 的 运作 与 云 处 理 是 不 可 
分 割 的 。 从 2013 年 开始 ， 云 计算 技术 和 大 数据 处 理 技术 就 已 经 有 效 地 结合 ， 其 关系 也 非常 密 
切 ， 而 随 着 大 数据 时 代 的 不 断 发 展 ， 两 者 的 关系 也 会 更 加 密切 和 契合 。 
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